一种用于两人零和博弈对手适应的元策略演化学习算法|吴哲;李凯;徐航;兴军亮|中国科学院大学人工智能学院北京100049 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

一种用于两人零和博弈对手适应的元策略演化学习算法

文献摘要：

围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并不能保证收益最大化.对手建模为最大化博弈收益提供了一种新途径,但仍存在建模困难等问题.结合元学习的思想提出了一种能够快速适应对手策略的元策略演化学习求解框架.在训练阶段,首先通过种群演化的方法不断生成风格多样化的博弈对手作为训练数据,然后利用元策略更新方法来调整元模型的网络权重,使其获得快速适应的能力.在Leduc扑克、两人有限注德州扑克(Heads-up limit Texas Hold'em,LHE)和RoboSumo上的大量实验结果表明,该算法能够有效克服现有方法的弊端,实现针对未知风格对手的快速适应,从而为两人零和博弈收益最大化求解提供了一种新思路.

文献关键词：

两人零和博弈;纳什均衡;对手建模;元学习;种群演化

中图分类号：

[1] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

[3] 经济（F） / 经济计划与管理（F2） / 经济计算、经济数学方法（F22） / 经济数学方法（F224） / 运筹学在经济中的应用（F224.3） / 博弈论（F224.32）

作者姓名：

吴哲;李凯;徐航;兴军亮

作者机构：

中国科学院自动化研究所智能系统与工程研究中心北京100190;中国科学院大学人工智能学院北京100049;清华大学计算机科学与技术系北京100084

文献出处：

自动化学报

引用格式：

[1]吴哲;李凯;徐航;兴军亮-.一种用于两人零和博弈对手适应的元策略演化学习算法)[J].自动化学报,2022(10):2462-2473

A类：

两人零和博弈,Leduc,LHE,RoboSumo

B类：

演化学习算法,围棋,德州扑克,里程碑式,设下,纳什均衡解,解开,不败,保守型,非理性,收益最大化,对手建模,元学习,快速适应,训练阶段,种群演化,成风,手作,训练数据,更新方法,Heads,up,limit,Texas,Hold,em

AB值：

0.297998

相似文献

基于深度强化学习与自学习的多无人机近距空战机动策略生成算法

孔维仁;周德云;赵艺阳;杨婉莎-西北工业大学电子信息学院,陕西西安710129;悉尼大学计算机学院,悉尼2006

预设时间下的分布式优化和纳什均衡点求解

张苗苗;叶茂娇;郑元世-西安电子科技大学机电工程学院,陕西西安710071;南京理工大学自动化学院,江苏南京210094

融合纳什均衡策略和神经协同过滤的群组推荐方法

李琳;王培培;杜佳;周栋-武汉理工大学计算机与人工智能学院武汉430070;湖南科技大学计算机科学与工程学院湘潭411201

智能博弈对抗中的对手建模方法及其应用综述

魏婷婷;袁唯淋;罗俊仁;张万鹏-国防科技大学智能科学学院,长沙 410073

结合先验知识与蒙特卡罗模拟的麻将博弈研究

王亚杰;乔继林;梁凯;谢延延-沈阳航空航天大学工程训练中心, 辽宁沈阳 110136;沈阳航空航天大学计算机学院, 辽宁沈阳110136

面向铁路集装箱的高可靠低时延无线资源分配算法

胥昊;曹桂均;闫璐;李科;王振宏-中国铁道科学研究院研究生部北京100081;中国铁道科学研究院通信信号研究所北京100081;中国铁道科学研究院科技和信息化部北京100081

生成对抗网络及其个性化推荐研究

杨宇;吴国栋;刘玉良;汪菁瑶;范维成-安徽农业大学信息与计算机学院,合肥230036

面向智能工厂原料供应环节的多机器人任务分配方法

熊乾程;董晨;洪祺瑜-福州大学数学与计算机科学学院,福州350116;福建省网络计算与智能信息处理重点实验室,福州350116;网络系统信息安全福建省高校重点实验室,福州350116

基于蚁群算法的移动边缘服务器收益优化策略

黄冬艳;付中卫;李浪-桂林电子科技大学广西无线宽带通信与信号处理重点实验室广西桂林541004

一种基于群等变卷积的度量元学习算法

吴鹏翔;李凡长-苏州大学计算机科学与技术学院,江苏苏州 215006

基于演化博弈的NFV拟态防御架构动态调度策略

张青青;汤红波;游伟;普黎明-中国人民解放军战略支援部队信息工程大学国家数字交换系统工程技术研究中心,郑州 450002

基于时机博弈的网络安全防御决策方法

孙鹏宇;张恒巍;谭晶磊;李晨蔚;马军强;王晋东-中国人民解放军战略支援部队信息工程大学三院,郑州 450001;中国人民解放军91451部队,河北邯郸 056000

一种半监督对抗鲁棒模型无关元学习方法

胡彬;王晓军;张雷-南京邮电大学计算机学院,南京 210023;南京邮电大学物联网学院,南京 210023

面向电工装备智能监造的边缘缓存策略

李凌;陈曦;沈维捷;熊汉武;蔡冉冉-国网物资有限公司, 北京 100120;国网信息通信产业集团有限公司, 北京 100052;国网上海市电力公司, 上海 200122;国家电网有限公司物资部,北京 100031;华北电力大学电气与电子工程学院, 北京 102206

基于博弈的水面无人艇集群对抗问题研究

房肖;温广辉;付俊杰;吕跃祖;栾萌;郑德智-东南大学数学学院,南京江苏211189;北京理工大学前沿交叉科学研究院,北京100081

收益为三角模糊数的双边链路网络形成优化非合作-合作两型博弈方法

梁开荣;李登峰-福州大学经济与管理学院,福州350108;电子科技大学经济与管理学院,成都611731

竞争环境下硬件平台的激励合同选择策略研究

唐华;罗之沁;何浩嘉;艾兴政;郭松波-电子科技大学经济与管理学院,成都611731

DoS攻击下信息物理系统的无模型H∞控制

金丹;吴麒;陈博;俞立-浙江工业大学信息工程学院,杭州310023;浙江工业大学网络空间安全研究院,杭州310023

近距空战训练中的智能虚拟对手决策与导引方法

孟光磊;刘德见;周铭哲;朴海音;陈耀飞-沈阳航空航天大学自动化学院, 沈阳110136;航空工业沈阳飞机设计研究所,沈阳110035

纯策略纳什均衡的博弈强化学习

王军;曹雷;陈希亮;陈英;赵芷若-陆军工程大学指挥控制工程学院,南京 210007;东部战区总医院博士后科研工作站,南京 210002

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。