一种针对德州扑克AI的对手建模与策略集成框架|张蒙;李凯;吴哲;臧一凡;徐航;兴军亮|中国科学院大学北京100049 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

一种针对德州扑克AI的对手建模与策略集成框架

文献摘要：

以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收益.为解决上述问题,提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架.本框架分为智能体离线训练和在线博弈两个阶段.第1阶段基于演化学习思想训练智能体,得到能够剥削不同博弈风格对手的策略神经网络.在第2博弈阶段中,智能体在线建模并适应未知风格对手,利用种群策略集成的方法最大化剥削对手.在两人无限注德州扑克环境中的实验结果表明,本框架在面对动态对手策略时,相比已有方法能够大幅提升博弈性能.

文献关键词：

不完美信息博弈;德州扑克;演化学习;在线对手建模;种群策略集成

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 计算机仿真（TP391.9）

作者姓名：

张蒙;李凯;吴哲;臧一凡;徐航;兴军亮

作者机构：

中国科学院自动化研究所北京100190;中国科学院大学北京100049

文献出处：

自动化学报

引用格式：

[1]张蒙;李凯;吴哲;臧一凡;徐航;兴军亮-.一种针对德州扑克AI的对手建模与策略集成框架)[J].自动化学报,2022(04):1004-1017

A类：

不完美信息博弈,种群策略集成,在线对手建模

B类：

德州扑克,集成框架,以德,现实世界,纳什均衡,均衡策略,略为,求解算法,树模型,算力,略过,智能体,同对,快速适应,策略变化,剥削,离线训练,演化学习,学习思想,在线建模

AB值：

0.203063

相似文献

基于深度强化学习与自学习的多无人机近距空战机动策略生成算法

孔维仁;周德云;赵艺阳;杨婉莎-西北工业大学电子信息学院,陕西西安710129;悉尼大学计算机学院,悉尼2006

融合强化学习和进化算法的高超声速飞行器航迹规划

池海红;周明鑫-哈尔滨工程大学智能科学与工程学院,黑龙江哈尔滨150001

预设时间下的分布式优化和纳什均衡点求解

张苗苗;叶茂娇;郑元世-西安电子科技大学机电工程学院,陕西西安710071;南京理工大学自动化学院,江苏南京210094

基于梯度博弈的网络化软件优化机制

舒畅;李青山;王璐;王子奇;计亚江-西安电子科技大学计算机科学与技术学院西安 710071

三方众包市场中的发包方-平台博弈机制设计

何雨橙;丁尧相;周志华-计算机软件新技术国家重点实验室(南京大学) 南京 210023

智能博弈对抗中的对手建模方法及其应用综述

魏婷婷;袁唯淋;罗俊仁;张万鹏-国防科技大学智能科学学院,长沙 410073

结合先验知识与蒙特卡罗模拟的麻将博弈研究

王亚杰;乔继林;梁凯;谢延延-沈阳航空航天大学工程训练中心, 辽宁沈阳 110136;沈阳航空航天大学计算机学院, 辽宁沈阳110136

面向铁路集装箱的高可靠低时延无线资源分配算法

胥昊;曹桂均;闫璐;李科;王振宏-中国铁道科学研究院研究生部北京100081;中国铁道科学研究院通信信号研究所北京100081;中国铁道科学研究院科技和信息化部北京100081

面向智能工厂原料供应环节的多机器人任务分配方法

熊乾程;董晨;洪祺瑜-福州大学数学与计算机科学学院,福州350116;福建省网络计算与智能信息处理重点实验室,福州350116;网络系统信息安全福建省高校重点实验室,福州350116

基于演化博弈的NFV拟态防御架构动态调度策略

张青青;汤红波;游伟;普黎明-中国人民解放军战略支援部队信息工程大学国家数字交换系统工程技术研究中心,郑州 450002

基于时机博弈的网络安全防御决策方法

孙鹏宇;张恒巍;谭晶磊;李晨蔚;马军强;王晋东-中国人民解放军战略支援部队信息工程大学三院,郑州 450001;中国人民解放军91451部队,河北邯郸 056000

基于Q-学习的底盘测功机自适应PID控制模型

乔通;周洲;程鑫;郭兰英;王润民-长安大学信息工程学院,陕西西安 710064;陕西省车联网与智能汽车测试技术工程研究中心,陕西西安 710064

基于博弈的水面无人艇集群对抗问题研究

房肖;温广辉;付俊杰;吕跃祖;栾萌;郑德智-东南大学数学学院,南京江苏211189;北京理工大学前沿交叉科学研究院,北京100081

收益为三角模糊数的双边链路网络形成优化非合作-合作两型博弈方法

梁开荣;李登峰-福州大学经济与管理学院,福州350108;电子科技大学经济与管理学院,成都611731

竞争环境下硬件平台的激励合同选择策略研究

唐华;罗之沁;何浩嘉;艾兴政;郭松波-电子科技大学经济与管理学院,成都611731

DoS攻击下信息物理系统的无模型H∞控制

金丹;吴麒;陈博;俞立-浙江工业大学信息工程学院,杭州310023;浙江工业大学网络空间安全研究院,杭州310023

基于强化学习的地铁站空调系统节能控制

焦焕炎;冯浩东;魏东;冉义兵;胡朝文-北京建筑大学电气与信息工程学院,北京100044;建筑大数据智能处理方法研究北京市重点实验室,北京100044;北京兴创置地房地产开发有限公司,北京102600

近距空战训练中的智能虚拟对手决策与导引方法

孟光磊;刘德见;周铭哲;朴海音;陈耀飞-沈阳航空航天大学自动化学院, 沈阳110136;航空工业沈阳飞机设计研究所,沈阳110035

纯策略纳什均衡的博弈强化学习

王军;曹雷;陈希亮;陈英;赵芷若-陆军工程大学指挥控制工程学院,南京 210007;东部战区总医院博士后科研工作站,南京 210002

基于改进双重深度Q网络的入侵检测模型

吴亚丽;王君虎;郑帅龙-西安理工大学自动化与信息工程学院,西安 710048;陕西省复杂系统控制与智能信息处理重点实验室,西安 710048

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。