首站-论文投稿智能助手
典型文献
基于近端策略优化的阻变存储硬件加速器自动量化
文献摘要:
卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的"内存墙"问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬件加速器由于具有高集成度和低功耗等优势,被广泛应用于加速矩阵-向量乘运算,但是其不适合进行32b浮点数计算,因此需要量化来降低数据精度.手工为每一层确定量化位宽非常耗时,近期的研究针对现场可编程门阵列(field programmable gate array,FPGA)平台使用基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的强化学习来进行自动量化,但需要将连续动作转换为离散动作,并通过逐层递减量化位宽来满足资源约束条件.基于此,提出基于近端策略优化(proximal policy optimization,PPO)算法的阻变存储硬件加速器自动量化,使用离散动作空间来避免动作空间转换步骤,设计新的奖励函数使PPO自动学习满足资源约束的最优量化策略,并给出软硬件设计改动以支持混合精度计算.实验结果表明:与粗粒度的量化相比,提出的方法可以减少20%~30%的硬件开销,而不引起模型准确度的过多损失.与其他自动量化相比,提出的方法搜索时间短,并且在相同的资源约束条件下可以进一步减少约4.2%的硬件开销.这为量化算法和硬件加速器的协同设计提供了参考.
文献关键词:
自动量化;强化学习;基于阻变存储的硬件加速器;神经网络;内存计算
作者姓名:
魏正;张兴军;卓志敏;纪泽宇;李泳昊
作者机构:
西安交通大学计算机科学与技术学院 西安 710049;北京电子工程总体研究所 北京 100854
引用格式:
[1]魏正;张兴军;卓志敏;纪泽宇;李泳昊-.基于近端策略优化的阻变存储硬件加速器自动量化)[J].计算机研究与发展,2022(03):518-532
A类:
基于阻变存储的硬件加速器,32b,混合精度计算
B类:
近端策略优化,自动量化,存储开销,计算复杂性,处理单元,存单,数据交换,边缘计算,资源受限,受限环境,高集成度,低功耗,浮点数,需要量,来降,数据精度,定量化,现场可编程门阵列,field,programmable,gate,array,FPGA,平台使用,深度确定性策略梯度,deep,deterministic,policy,gradient,DDPG,强化学习,逐层,减量化,资源约束,proximal,optimization,PPO,动作空间,空间转换,换步,奖励函数,自动学习,软硬件设计,改动,粗粒度,硬件开销,搜索时间,量化算法,协同设计,内存计算
AB值:
0.331444
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。