典型文献
基于蒙特卡洛树搜索的通用博弈系统的构建与优化研究
文献摘要:
[背景]作为人工智能的主要研究领域,通用博弈策略(General Game Playing,简称GGP)旨在构建具有通用智能的博弈系统.这些系统能够基于给定的博弈规则在没有人为干涉的情况下成功地进行多个甚至是全新构造的博弈.[目的]与专门的博弈系统不同,通用博弈系统所使用的策略生成算法并不针对特定博弈,而是能够根据给定的博弈规则自动生成博弈策略的具有通用性的算法.GGP发展至今已成为检测人工智能水平,特别是通用智能发展的重要研究领域.如何构建高效的通用博弈系统是GGP研究的主要问题.[文献范围]通用博弈策略的生成算法是构建通用博弈系统的关键技术.目前所使用的主流算法是蒙特卡洛树搜索算法及其变种.这类算法在工作过程中并不依赖特定的博弈信息,因而被广泛地应用于GGP领域.然而,由博弈规则推导出来的关于博弈的专门信息,往往对建立针对这一博弈的有效决策算法具有重要的作用.[方法]为此,本文通过在蒙特卡洛树搜索算法上增加记忆结构来存储在线博弈过程中的实时信息,用记忆结构中博弈状态的相似状态来估计该状态的好坏,以提高状态评估的准确性.[结果]本文基于这一方法构建了通用博弈系统并对其性能进行了全面地评估.实验结果表明,与原始的蒙特卡洛方法相比,本文所构建的通用博弈系统在决策水平和效率上都有显著提升,特别在双人信息对称的零和回合制博弈中胜率保持在55%以上,且其性能随着博弈规模的增大而显著提升,在Connect 5、Breakthrough等大规模的游戏上有着绝对优势,即达到100%胜率.[结论]这表明本文所提出的方法通过利用博弈的专门信息能够有效地提升蒙特卡洛树搜索算法的性能.
文献关键词:
通用博弈策略;蒙特卡洛树搜索;算法博弈论;多智能体系统
中图分类号:
作者姓名:
梁思立;姜桂飞;陈泰劼;邓益超;战瑀璠;张玉志
作者机构:
南开大学,软件学院,天津 300350;香港大学,工程学院,香港特别行政区 999077;新加坡国立大学,计算机学院,新加坡 117417;南开大学,金融学院,天津 300381
文献出处:
引用格式:
[1]梁思立;姜桂飞;陈泰劼;邓益超;战瑀璠;张玉志-.基于蒙特卡洛树搜索的通用博弈系统的构建与优化研究)[J].数据与计算发展前沿,2022(03):66-77
A类:
通用博弈策略,回合制,算法博弈论
B类:
General,Game,Playing,GGP,博弈规则,下成,新构造,生成算法,自动生成,通用性,智能发展,流算法,蒙特卡洛树搜索算法,变种,不依,赖特,导出来,有效决策,决策算法,实时信息,好坏,状态评估,蒙特卡洛方法,双人,信息对称,胜率,Connect,Breakthrough,绝对优势,信息能,多智能体系统
AB值:
0.281137
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。