典型文献
基于元课程强化学习的多智能体协同博弈技术
文献摘要:
多智能体协同博弈具有实时及动作连续性、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点,是当前人工智能领域极具挑战的难题之一.针对大规模多智能体强化学习训练时间长、难以收敛等问题,提出了一种基于Actor-Critic的多智能体强化学习协同博弈框架,利用元课程强化学习方法对小规模场景进行基础课程元模型提取,并且基于课程学习向大规模场景进行模型迁移,在元模型基础上继续进行训练,扩展元模型策略网络,最终得到较优协同博弈策略.在《星际争霸Ⅱ》平台上进行仿真实验,结果表明:基于元课程强化学习的多智能体协同博弈技术可有效地加速其训练过程,相较于传统训练方法可以在较短时间内达到较高的胜率,训练速度提升约40%,该方法可有效支撑多智能体协同博弈策略的高效生成,为低资源下的强化学习高效训练奠定理论基础.
文献关键词:
多智能体;强化学习;协同博弈;元课程学习;高效训练
中图分类号:
作者姓名:
丁季时雨;孙科武;董博;杨皙睿;范长超;马喆
作者机构:
中国航天科工集团有限公司第二研究院 未来实验室,北京 100854
文献出处:
引用格式:
[1]丁季时雨;孙科武;董博;杨皙睿;范长超;马喆-.基于元课程强化学习的多智能体协同博弈技术)[J].现代防御技术,2022(05):36-42
A类:
弈具,非完全信息博弈,元课程学习
B类:
多智能体协同,协同博弈,搜索空间,复杂任务,时间空间,空间推理,人工智能领域,多智能体强化学习,学习训练,训练时间,Actor,Critic,强化学习方法,小规模,规模场,基础课程,模型迁移,策略网络,博弈策略,星际争霸,训练过程,训练方法,胜率,训练速度,有效支撑,低资源,高效训练
AB值:
0.269362
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。