典型文献
"拱猪"游戏的深度蒙特卡洛博弈算法
文献摘要:
针对现有的"拱猪"卷积模型计算复杂且高度依赖专家知识的问题,提出一种应用于"拱猪"博弈游戏的深度神经网络和蒙特卡洛方法相结合的深度蒙特卡洛算法.采用自对弈的方式进行模拟和评估,使用深度Q网络代替Q表完成Q值的更新,高效地对"拱猪"策略进行探索和利用;采用分布式并行计算的方法提高训练效率,较于传统的蒙特卡洛方法可有效地解决高方差问题.在具有一个GPU的单台服务器上训练24 h后,所构建的智能代理与"拱猪"卷积模型对弈了10000局.实验结果表明:智能代理胜率可达78.3%,平均每局可获得67分,对具体示例进行分析,进一步验证了该算法的有效性以及智能代理的良好性能.
文献关键词:
人工智能;拱猪;深度强化学习;蒙特卡洛方法
中图分类号:
作者姓名:
吴立成;吴启飞;钟宏鸣;李霞丽
作者机构:
中央民族大学 信息工程学院, 北京 100081
文献出处:
引用格式:
[1]吴立成;吴启飞;钟宏鸣;李霞丽-."拱猪"游戏的深度蒙特卡洛博弈算法)[J].重庆理工大学学报,2022(12):121-128
A类:
拱猪,自对弈
B类:
博弈算法,专家知识,深度神经网络,蒙特卡洛方法,蒙特卡洛算法,使用深度,分布式并行计算,提高训练,训练效率,GPU,单台,台服,服务器,智能代理,胜率,每局,示例,好性,深度强化学习
AB值:
0.319001
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。