首站-论文投稿智能助手
典型文献
基于ARM SVE的FFT算法向量化研究
文献摘要:
快速傅里叶变换(Fast Fourier Transform,FFT)是信号处理、图像处理等领域的重要研究工具.可伸缩向量扩展(Scalable Vector Extension,SVE)是ARM处理器推出的基于ARMv8-A体系架构的新一代SIMD指令集,支持位宽为128位-2048位的向量寄存器和向量长度无关(Vector Length Agnostic,VLA)编程模型,具有很好的数据并行性和软件可移植性,适用于高性能计算、机器学习等领域.目前基于ARM SVE的FFT算法的研究尚未充分挖掘其架构特性和计算资源,本文针对数据规模为2的幂次的一维复数FFT,结合SVE谓词驱动的循环控制、非线性访存、复数运算等特性对算法做出了改进.实验结果表明,与FFTW库基于NEON的向量化实现相比,本算法性能有明显提升,在向量长度为1024位时,平均性能提升5.83倍,最高性能提升9.22倍.
文献关键词:
FFT;ARM SVE;SIMD汇编优化;软件性能优化
作者姓名:
李凤娇;顾乃杰;齐东升;苏俊杰
作者机构:
中国科学技术大学计算机科学与技术学院,合肥230027;中国科学技术大学安徽省计算与通信软件重点实验室,合肥230027
引用格式:
[1]李凤娇;顾乃杰;齐东升;苏俊杰-.基于ARM SVE的FFT算法向量化研究)[J].小型微型计算机系统,2022(10):2017-2021
A类:
SVE,FFTW,软件性能优化
B类:
法向量,向量化,量化研究,快速傅里叶变换,Fast,Fourier,Transform,信号处理,研究工具,可伸缩,Scalable,Vector,Extension,处理器,ARMv8,体系架构,SIMD,指令集,寄存器,Length,Agnostic,VLA,数据并行,并行性,可移植性,高性能计算,计算资源,谓词,环控制,复数运算,NEON,算法性能,性能提升,汇编优化
AB值:
0.424747
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。