典型文献
Q学习实现亚马逊棋评估函数自调参
文献摘要:
在亚马逊棋评估函数模型中进行参数调试,主要由人工依靠经验反复实验来实现,效率较低且无法保证精度.针对人工调参效率低下、精确度不足的问题,可借助机器学习的方法来弥补.采用强化学习中Q学习的思路,构造一种具有自学习能力的网络结构,利用计算机自身反复模拟对局与迭代,实现评估函数调参工作的自动化.实验结果表明:当训练达10000次时,模型各结点Q值会趋于收敛,说明此时程序可以做出稳定合理的调参操作;在博弈实战中,模型调参后的程序也表现出了较强的棋力.
文献关键词:
计算机博弈;亚马逊棋;强化学习;Q学习;评估函数
中图分类号:
作者姓名:
邱虹坤;王浩宇;王亚杰
作者机构:
沈阳航空航天大学 计算机学院, 沈阳 110136;沈阳航空航天大学 工程训练中心, 沈阳 110136
文献出处:
引用格式:
[1]邱虹坤;王浩宇;王亚杰-.Q学习实现亚马逊棋评估函数自调参)[J].重庆理工大学学报,2022(12):136-141
A类:
亚马逊棋
B类:
评估函数,自调,函数模型,参数调试,强化学习,自学习,利用计算机,对局,练达,结点,时程,实战,棋力,计算机博弈
AB值:
0.3214
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。