典型文献
基于FPGA的浮点可分离卷积神经网络加速方法
文献摘要:
针对可分离卷积神经网络在星载飞机目标型号分类应用中存在的速度瓶颈以及功耗限制等问题,提出了一种基于现场可编程门阵列(FPGA)数据流调度的浮点深度分离卷积神经网络加速方法,对通用MobileNet的图像分类模型进行加速.采用基于乘法矩阵与前向加法树的深度分离卷积计算阵列设计,解决了深度分离卷积浮点加速的线速吞吐瓶颈.实验结果表明,基于FPGA的目标分类速度为633 FPS,功耗为22.226 W,运算性能为236.04 GFLOPS,计算速度达到了Titan Xp GPU的1.10~2.61倍,计算效能是Ti-tan Xp GPU的7.44~18.66倍.在同类基于FPGA的浮点卷积加速方案中,该方法在运算性能及能效比上达到了最优.同时,该方法提供了与原模型一致性的图像分类准确率,解耦合了软硬件协同开发流程,降低了应用开发人员使用FPGA加速计算的门槛.
文献关键词:
深度可分离卷积;现场可编程门阵列(FPGA);数据流调度;加速;图像分类
中图分类号:
作者姓名:
张志超;王剑;章隆兵;肖俊华
作者机构:
计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190;中国科学院计算技术研究所 北京100190;中国科学院大学 北京100049;中国电子科技集团公司第十五研究所 北京100083
文献出处:
引用格式:
[1]张志超;王剑;章隆兵;肖俊华-.基于FPGA的浮点可分离卷积神经网络加速方法)[J].高技术通讯,2022(05):441-453
A类:
B类:
FPGA,浮点,卷积神经网络加速,加速方法,星载,飞机目标,功耗,现场可编程门阵列,数据流调度,深度分离卷积,MobileNet,图像分类,分类模型,加法,卷积计算,阵列设计,吞吐,目标分类,FPS,运算性能,GFLOPS,计算速度,Titan,Xp,GPU,算效,点卷积,卷积加速,能效比,上达,模型一致性,分类准确率,解耦,软硬件协同,协同开发,开发流程,应用开发,开发人员,深度可分离卷积
AB值:
0.352479
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。