首站-论文投稿智能助手
典型文献
基于改进YOLOv4-Tiny的FPGA加速方法
文献摘要:
针对YOLOv4-Tiny算法复杂度高、 计算量和参数量大以及不易在资源较少嵌入式平台部署等问题,提出了一种软硬件联合优化方案.在算法上采用GhostNet残差结构替换原算法残差部分所构建的主干网络,再对网络通道剪枝以对算法进行压缩,改进后的网络相较于YOLOv4-Tiny压缩了97%.为了提高硬件资源效率,对权值和偏置采用16 bit动态定点数量化;增加总线数据读写突发长度提高带宽;设计高度并行流水化的传统卷积、 通道卷积、 池化和上采样等算子以提高网络效率.实验表明,改进算法在PYNQ-Z2上获得4.04 GOP/s的性能.相较于YOLOv4-Tiny在ARM Cortex-A9,改进的网络在FPGA上实现35.2倍加速.因此,软硬件结合优化能够更好地加速算法运算.
文献关键词:
深度学习;YOLOv4-Tiny;模型剪枝;FPGA;GhostNet;卷积神经网络
作者姓名:
曹远杰;高瑜翔;杜鑫昌;涂雅培;吴美霖
作者机构:
成都信息工程大学 通信工程学院, 四川 成都 610225;气象信息与信号处理四川省高校重点实验室, 四川 成都 610225
文献出处:
引用格式:
[1]曹远杰;高瑜翔;杜鑫昌;涂雅培;吴美霖-.基于改进YOLOv4-Tiny的FPGA加速方法)[J].无线电工程,2022(04):604-611
A类:
B类:
YOLOv4,Tiny,FPGA,加速方法,算法复杂度,计算量,参数量,嵌入式平台,平台部署,联合优化,GhostNet,残差结构,分所,主干网络,通道剪枝,硬件资源,资源效率,权值,偏置,bit,定点数,数量化,加总,总线,读写,发长,高带宽,池化,上采样,网络效率,改进算法,PYNQ,Z2,GOP,ARM,Cortex,A9,倍加,软硬件结合,速算,模型剪枝
AB值:
0.555017
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。