典型文献
Cooley-Tukey FFT算法高性能实现与优化研究
文献摘要:
快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求.研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提高FFT算法的计算性能日益重要.针对ARMv8和X86-64计算平台的架构特征,研究FFT算法的高性能实现和优化方法.通过蝶形网络优化、大基网络级数降低、大基蝶形计算优化、SIMD汇编优化以及寄存器使用策略优化等方法的应用,有效提升了FFT算法的性能,特别是提升了FFT大基的计算性能,解决了寄存器不够用的性能瓶颈,并最终总结了一套Cooley-Tukey FFT算法的高性能实现策略和优化方案.实验结果表明,在ARM、X86-64处理器上,实现的FFT算法,较ARMPL、Intel MKL和FFTW性能有明显提升,较中小基性能也有明显提升.
文献关键词:
快速傅里叶变换(FFT);ARMv8;X86-64;FFTW;SIMD优化
中图分类号:
作者姓名:
郭金鑫;张广婷;张云泉;陈泽华;贾海鹏
作者机构:
太原理工大学 大数据学院,太原 030024;中国科学院 计算技术研究所 计算机体系结构国家重点实验室,北京 100190
文献出处:
引用格式:
[1]郭金鑫;张广婷;张云泉;陈泽华;贾海鹏-.Cooley-Tukey FFT算法高性能实现与优化研究)[J].计算机科学与探索,2022(06):1304-1315
A类:
Cooley,ARMPL,FFTW
B类:
Tukey,快速傅里叶变换,处理器,软件生态,ARMv8,X86,计算平台,蝶形,网络优化,计算优化,SIMD,汇编优化,寄存器,使用策略,策略优化,够用,实现策略,Intel,MKL,基性
AB值:
0.295204
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。