首站-论文投稿智能助手
典型文献
面向GPU计算平台的神经网络卷积性能优化
文献摘要:
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication,GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了 一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.
文献关键词:
通用矩阵乘;Winograd算法;卷积神经网络;性能优化;GPU
作者姓名:
李茂文;曲国远;魏大洲;贾海鹏
作者机构:
中国科学院计算技术研究所 北京 100190;中国航空无线电电子研究所 上海 200241
引用格式:
[1]李茂文;曲国远;魏大洲;贾海鹏-.面向GPU计算平台的神经网络卷积性能优化)[J].计算机研究与发展,2022(06):1181-1191
A类:
高性能代码,通用矩阵乘,V1605B
B类:
GPU,计算平台,性能优化,图像检测,生活场景,凭借着,算力,边缘计算,计算设备,跨平台,神经网络优化,general,matrix,multiplication,GEMM,分块,块规,网络规模,Winograd,合算,遍历,自调,调优,卷积算子,合离,离线,编译,内存池,裁剪,提升卷积神经网络,AMD,深度学习网络,速效
AB值:
0.337731
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。