首站-论文投稿智能助手
典型文献
一种用于两人零和博弈对手适应的元策略演化学习算法
文献摘要:
围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并不能保证收益最大化.对手建模为最大化博弈收益提供了一种新途径,但仍存在建模困难等问题.结合元学习的思想提出了一种能够快速适应对手策略的元策略演化学习求解框架.在训练阶段,首先通过种群演化的方法不断生成风格多样化的博弈对手作为训练数据,然后利用元策略更新方法来调整元模型的网络权重,使其获得快速适应的能力.在Leduc扑克、两人有限注德州扑克(Heads-up limit Texas Hold'em,LHE)和RoboSumo上的大量实验结果表明,该算法能够有效克服现有方法的弊端,实现针对未知风格对手的快速适应,从而为两人零和博弈收益最大化求解提供了一种新思路.
文献关键词:
两人零和博弈;纳什均衡;对手建模;元学习;种群演化
作者姓名:
吴哲;李凯;徐航;兴军亮
作者机构:
中国科学院自动化研究所智能系统与工程研究中心 北京100190;中国科学院大学人工智能学 院北京100049;清华大学计算机科学与技术系 北京100084
文献出处:
引用格式:
[1]吴哲;李凯;徐航;兴军亮-.一种用于两人零和博弈对手适应的元策略演化学习算法)[J].自动化学报,2022(10):2462-2473
A类:
两人零和博弈,Leduc,LHE,RoboSumo
B类:
演化学习算法,围棋,德州扑克,里程碑式,设下,纳什均衡解,解开,不败,保守型,非理性,收益最大化,对手建模,元学习,快速适应,训练阶段,种群演化,成风,手作,训练数据,更新方法,Heads,up,limit,Texas,Hold,em
AB值:
0.297998
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。