典型文献
基于动态网络的自适应策略推理框架
文献摘要:
深度强化学习使用深度神经网络在解决复杂决策任务上取得显著进步.然而,其推理成本明显增加,导致实用性降低,减少推理代价为该技术落地的重要挑战.本文研究发现,任务中并非所有状态都是难以决策的.受此启发,本文提出状态自适应推理框架,保证策略质量并显著降低策略推理成本.本文设计了动态策略训练算法:首先,为加速简单状态下的推理,生成不同大小的子策略网络.然后,训练元策略以根据状态难易动态选择合适的子策略.为进一步降低元策略推理成本,本文共享子策略与元策略网络的部分参数,并基于扩展的马尔可夫决策过程训练元策略.最后在gym平台上进行的实验表明,自适应推理框架在保证策略质量的前提下浮点数计算量少3.4倍.
文献关键词:
深度强化学习;动态神经网络;自适应推理;神经网络加速
中图分类号:
作者姓名:
张红杰;曲成;李京
作者机构:
中国科学技术大学计算机科学与技术学院,合肥230026
文献出处:
引用格式:
[1]张红杰;曲成;李京-.基于动态网络的自适应策略推理框架)[J].小型微型计算机系统,2022(12):2605-2613
A类:
B类:
动态网络,自适应策略,深度强化学习,使用深度,深度神经网络,复杂决策,自适应推理,降低策略,动态策略,策略训练,训练算法,速简,同大,策略网络,难易,动态选择,马尔可夫决策过程,gym,下浮,浮点数,计算量,动态神经网络,神经网络加速
AB值:
0.416277
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。