首站-论文投稿智能助手
典型文献
深度卷积的软硬件协同优化设计与实现
文献摘要:
近年来,深度学习技术被广泛应用.由于移动设备同时受到算力和功耗的限制,很多轻量级的网络被提出,比如Xception、MobileNet系列等.在这些轻量级网络中,深度卷积的层数占网络中所有卷积层数的31% ~50%,故如何优化深度卷积的运算是一个值得研究的问题.通用中央处理器(CPU)、固定运算器长度的单指令多数据流(SIMD)处理器均无法高效处理神经网络中的各种规模的深度卷积,性能较低.针对这一问题,本文提出了一种软硬件结合的方法优化深度卷积的计算,通过一个多种权值传输模式的硬件架构设计,结合软件模式选择、数据拆分等优化方式,在提高运算效率的同时减少了访存量.实验结果表明,使用该方法实现的深度卷积加速器,相比通用CPU最大可达9.3倍的性能加速,相比运算器长度为64的单核SIMD处理器最大可达29.3倍的性能加速.
文献关键词:
神经网络;深度卷积;加速器;软硬件协同优化;计算效率
作者姓名:
齐豪;刘少礼;李威
作者机构:
中国科学技术大学计算机科学与技术学院 合肥230026;上海寒武纪信息科技有限公司 上海201306;中国科学院计算技术研究所处理器芯片国家重点实验室 北京100190
文献出处:
引用格式:
[1]齐豪;刘少礼;李威-.深度卷积的软硬件协同优化设计与实现)[J].高技术通讯,2022(07):696-707
A类:
B类:
深度卷积,软硬件协同优化,协同优化设计,深度学习技术,移动设备,算力,功耗,Xception,MobileNet,轻量级网络,层数,数占,卷积层,算是,中央处理器,CPU,运算器,单指令多数据流,SIMD,高效处理,软硬件结合,方法优化,一个多,权值,传输模式,硬件架构设计,模式选择,数据拆分,优化方式,运算效率,卷积加速,加速器,计算效率
AB值:
0.363088
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。