首站-论文投稿智能助手
典型文献
基于鸽群的鲁棒强化学习算法
文献摘要:
强化学习是一种人工智能算法,具有计算逻辑清晰、模型易扩展的优点,可以在较少甚至没有先验信息的前提下,通过和环境交互并最大化值函数,调优策略性能,有效地降低物理模型引起的复杂性.基于策略梯度的强化学习算法目前已成功应用于图像智能识别、机器人控制、自动驾驶路径规划等领域.然而强化学习高度依赖采样的特性决定了其训练过程需要大量样本来收敛,且决策的准确性易受到与仿真环境中不匹配的轻微干扰造成严重影响.特别是当强化学习应用于控制领域时,由于无法保证算法的收敛性,难以对其稳定性进行证明,为此,需要对强化学习进行改进.考虑到群体智能算法可通过群体协作解决复杂问题,具有自组织性及稳定性强的特征,利用其对强化学习进行优化求解是一个提高强化学习模型稳定性的有效途径.结合群体智能中的鸽群算法,对基于策略梯度的强化学习进行改进:针对求解策略梯度时存在迭代求解可能无法收敛的问题,提出了基于鸽群的强化学习算法,以最大化未来奖励为目的求解策略梯度,将鸽群算法中的适应性函数和强化学习结合估计策略的优劣,避免求解陷入死循环,提高了强化学习算法的稳定性.在具有非线性关系的两轮倒立摆机器人控制系统上进行仿真验证,实验结果表明,基于鸽群的强化学习算法能够提高系统的鲁棒性,降低计算量,减少算法对样本数据库的依赖.
文献关键词:
鸽群算法;强化学习;策略梯度;鲁棒性
作者姓名:
张明英;华冰;张宇光;李海东;郑墨泓
作者机构:
中国电子技术标准化研究院,北京 100007;南京航空航天大学航天学院,江苏南京 211106;中国电子科技集团公司第七研究所,广东广州 510000
引用格式:
[1]张明英;华冰;张宇光;李海东;郑墨泓-.基于鸽群的鲁棒强化学习算法)[J].网络与信息安全学报,2022(05):66-74
A类:
B类:
强化学习算法,人工智能算法,先验信息,值函数,调优,策略性,物理模型,策略梯度,成功应用,图像智能识别,自动驾驶,路径规划,训练过程,仿真环境,学习应用,控制领域,收敛性,群体智能算法,解决复杂问题,自组织,组织性,优化求解,模型稳定性,合群,鸽群算法,求解策略,迭代求解,估计策略,死循环,非线性关系,两轮,倒立摆,机器人控制系统,仿真验证,计算量,少算,样本数据库
AB值:
0.303983
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。