首站-论文投稿智能助手
典型文献
面向深度学习的批处理矩阵乘法设计与实现
文献摘要:
本文设计并实现了面向深度学习的统一框架批处理矩阵乘法.我们细致地分析了利用矩阵乘法实现卷积的过程中卷积核、输入特征图和输出特征图在NCHW和NHWC两类存储格式下的矩阵数据排列特点,指出了其和矩阵行列主序的关系.在此基础上,为了更好复用共享的卷积核数据,我们提出将批量输入特征图转化为一个矩阵整体进行计算的方法.我们设计了统一框架的批处理分块矩阵乘法,该框架计算同一矩阵和多个不同矩阵的乘法,可以处理并输出任意存储格式的矩阵数据.我们优化了分块矩阵乘法实现,根据输入参数特征规划计算顺序,利用矩阵转置技巧复用核心计算模块,没有增加额外的数据组织操作.数值试验表明:本文设计实现的批处理单精度矩阵乘法的计算速度比循环调用原始单精度矩阵乘法的计算速度在处理中小尺度矩阵时在四款不同处理器平台上性能最高分别提高4.80%、26.57%、29.27%和25.55%,平均分别提升2.37%、14.37%、9.89%和15.72%.
文献关键词:
批处理矩阵乘法;卷积;分块算法;深度学习;数据排列
作者姓名:
黄春;姜浩;全哲;左克;何楠;刘文超
作者机构:
国防科技大学计算机学院 长沙410073;湖南大学信息科学与工程学院 长沙410082
文献出处:
引用格式:
[1]黄春;姜浩;全哲;左克;何楠;刘文超-.面向深度学习的批处理矩阵乘法设计与实现)[J].计算机学报,2022(02):225-239
A类:
批处理矩阵乘法,NCHW,NHWC
B类:
一框,卷积核,输入特征,特征图,数据排列,列特,行列,复用,核数据,批量输入,分块矩阵,矩阵和,出任,输入参数,参数特征,转置,心计,增加额,数据组织,数值试验,设计实现,单精度,精度矩阵,计算速度,速度比,调用,中小尺度,四款,不同处理,处理器,最高分,平均分,分块算法
AB值:
0.32983
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。