首站-论文投稿智能助手
典型文献
面向灵活并行度的稀疏卷积神经网络加速器
文献摘要:
大规模卷积神经网络计算复杂度高且资源开销大,这极大提高了深度学习算法的硬件部署成本.在模型推理过程中充分利用层间稀疏激活的信息冗余,以较低资源开销和几乎无损的网络精度降低推理时延和功耗提供高效的加速器解决方案.针对稀疏卷积神经加速器中控制粒度过大导致运算模块利用率过低问题,本文提出基于FP-GA具有灵活并行度的稀疏卷积神经网络加速器架构.基于运算簇思想对卷积运算模块实现灵活调度,根据卷积层结构在线调整输入通道和输出激活的并行度;根据输出激活并行运算的数据一致性设计了一种输入数据的并行传播方式.本文在Xilinx VC709目标设备上实现了提出的加速器硬件架构,它包含1024个乘累加单元,提供409.6 GOP/s理论峰值算力;实际运算速度在VGG-16模型中达到325.8 GOP/s,等效于稀疏激活优化前加速器的794.63 GOP/s,运算性能达到baseline模型4.6倍以上.
文献关键词:
FPGA;卷积神经网络;硬件加速;稀疏感知;并行计算
作者姓名:
袁海英;曾智勇;成君鹏
作者机构:
北京工业大学信息学部,北京100124
文献出处:
引用格式:
[1]袁海英;曾智勇;成君鹏-.面向灵活并行度的稀疏卷积神经网络加速器)[J].电子学报,2022(08):1811-1818
A类:
稀疏卷积神经网络,VC709,稀疏感知
B类:
并行度,卷积神经网络加速器,计算复杂度,开销,深度学习算法,硬件部署,部署成本,模型推理,推理过程,信息冗余,低资源,时延,功耗,中控,制粒,卷积运算,卷积层,在线调整,输入通,并行运算,数据一致性,输入数据,并行传播,传播方式,Xilinx,硬件架构,累加,GOP,算力,VGG,中达,等效于,运算性能,baseline,FPGA,硬件加速,并行计算
AB值:
0.332632
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。