首站-论文投稿智能助手
典型文献
战术先验知识启发的多智能体双层强化学习
文献摘要:
针对典型海空协同作战中指挥控制技术对时效性、准确性和跨域融合能力的高要求,提出了一种先验知识启发的双层强化学习框架.通过研究先验知识启发的奖励塑造方式,提取作战子任务设计状态聚合方法,从而把具体状态映射到抽象状态;基于抽象状态使用马尔科夫决策过程(Markov decision process,MDP)理论进行建模,使用强化学习算法求解该模型;使用最终求解出的抽象状态价值函数进行基于势能的奖励塑造.以上流程与下层具体MDP过程并行求解,从而搭建了一个双层强化学习算法框架.基于全国兵棋推演大赛的兵棋推演平台进行了实验,在状态空间、动作空间、奖励函数等方面细化算法.指出了先验知识代表从上而下的任务式指挥方式,而多智能体强化学习在某些结构上符合自下而上的事件式指挥方式.两种方式结合,使得该算法控制下的作战单元学习到协同作战战术,面对复杂环境具有更好的鲁棒性.经过仿真实验,该算法控制的红方智能体对抗规则智能体控制的蓝方可以获得70%的胜率.
文献关键词:
海空协同作战;先验知识;奖励塑造;双层强化学习
作者姓名:
陈晓轩;黄魁华;梁星星;冯旸赫;黄金才
作者机构:
国防科技大学系统工程学院 湖南长沙410072
文献出处:
引用格式:
[1]陈晓轩;黄魁华;梁星星;冯旸赫;黄金才-.战术先验知识启发的多智能体双层强化学习)[J].指挥与控制学报,2022(01):72-79
A类:
双层强化学习,海空协同作战,奖励塑造,任务式指挥
B类:
战术,先验知识,指挥控制,跨域融合,融合能力,塑造方式,子任务,任务设计,聚合方法,状态映射,射到,马尔科夫决策过程,Markov,decision,process,MDP,强化学习算法,解出,价值函数,势能,上流,一个双,兵棋推演,状态空间,动作空间,奖励函数,多智能体强化学习,自下而上,两种方式,得该,算法控制,作战单元,单元学习,复杂环境,红方,抗规,蓝方,胜率
AB值:
0.326231
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。