首站-论文投稿智能助手
典型文献
FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架
文献摘要:
卷积神经网络(convolutional neural network,CNN)模型量化 可有效压缩模型尺寸 并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能.
文献关键词:
卷积神经网络量化;量化算法解耦;并行编解码;片上资源建模;加速器设计
作者姓名:
谢坤鹏;卢冶;靳宗明;刘义情;龚成;陈新伟;李涛
作者机构:
南开大学计算机学院 天津 300350;天津市网络与数据安全技术重点实验室(南开大学) 天津 300350;计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京 100190;福建省信息处理与智能控制重点实验室(闽江学院) 福州 350108
引用格式:
[1]谢坤鹏;卢冶;靳宗明;刘义情;龚成;陈新伟;李涛-.FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架)[J].计算机研究与发展,2022(07):1409-1427
A类:
16b,23TOPS,卷积神经网络量化,量化算法解耦,并行编解码,片上资源建模
B类:
FAQ,向量化,FPGA,可扩展,convolutional,neural,network,模型量化,压缩模型,模型尺寸,计算效率,加速器设计,代码,复用性,数据交换,联合优化,软件工具,快速部署,双缓冲,流水线,优化技术,并行执行,执行效率,编码规则,低位,量传,并行计算,资源配置优化,配置优化模型,整数,非线性规划,规划问题,启发式,剪枝,设计空间,空间规模,高效灵活,权值,Caffeine
AB值:
0.322846
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。