典型文献
不确定环境下的深度强化学习编队避障控制
文献摘要:
多智能体编队避障控制的目的在于保持多智能体队形的同时完成避障.针对复杂环境的随机性和不确定性,提出了一种不确定环境下的深度强化学习编队避障控制方法.首先,设计了价值评估网络来增加多智能体编队过程中触碰障碍物或者到达期望位置这些特殊动作的经验,使智能体更快地理解环境规则.其次,在智能体选择动作时,基于贪心策略,对动作选择策略进行改进以提高智能体的学习效率.再次,设计了样本存储空间,在增加样本的利用率的同时提高模型训练效率,并且在决策阶段结合多步学习算法使价值估计更准确.最后,将提出的方法与其他算法进行了对比实验.仿真结果表明提出的方法能使多个智能体在维持队形的同时进行避障,并且有效地提高了智能体学习效率.
文献关键词:
深度强化学习;避障;编队控制;多智能体;神经网络
中图分类号:
作者姓名:
禹鑫燚;杜丹枫;欧林林
作者机构:
浙江工业大学信息工程学院 杭州 310023
文献出处:
引用格式:
[1]禹鑫燚;杜丹枫;欧林林-.不确定环境下的深度强化学习编队避障控制)[J].高技术通讯,2022(08):836-844
A类:
B类:
不确定环境,深度强化学习,编队避障控制,多智能体编队,队形,复杂环境,随机性,价值评估,障碍物,解环,环境规则,贪心策略,动作选择策略,高智能,学习效率,存储空间,模型训练,训练效率,决策阶段,多步,编队控制
AB值:
0.262019
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。