典型文献
基于均值偏差奖赏函数的放煤口控制策略研究
文献摘要:
根据液压支架的空间布局以及放煤口动作过程的特性,将放煤过程抽象为马尔科夫决策过程.同时,以强化学习为框架,在无需样本训练的情况下,利用Q-learning算法在线学习顶煤赋存状态与放煤口动作之间的映射关系,从而实现放煤口动作的最优决策.为保证放煤过程中煤岩分界面均匀下降,在Q-learning算法中设计了一种基于均值偏差的奖赏函数,并在Linux系统中建立了工作面连续进刀放煤三维仿真实验平台,对算法的有效性进行了验证.实验结果表明,基于均值偏差奖赏函数学习到的放煤口控制策略,能够保证在放顶煤过程中煤岩分界面更加均匀地下降.在工作面连续进刀放煤条件下,基于均值偏差奖赏函数Q-learning的智能放煤工艺,放煤平均奖励可达13467.8,比原Q-learning智能放煤工艺提高8.8%,比单轮顺序放煤等传统工艺提高约10%.
文献关键词:
综合机械化开采;放顶煤;智能化;强化学习
中图分类号:
作者姓名:
罗开成;高阳;杨艺;常亚军;袁瑞甫
作者机构:
郑州煤矿机械集团股份有限公司,河南郑州 450016;郑州煤机液压电控有限公司,河南郑州 450016;河南理工大学电气工程与自动化学院,河南焦作 454000;煤炭安全生产与清洁高效利用省部共建协同创新中心,河南焦作 454000
文献出处:
引用格式:
[1]罗开成;高阳;杨艺;常亚军;袁瑞甫-.基于均值偏差奖赏函数的放煤口控制策略研究)[J].煤炭工程,2022(09):105-111
A类:
B类:
均值偏差,奖赏函数,控制策略研究,液压支架,马尔科夫决策过程,强化学习,样本训练,learning,在线学习,赋存状态,映射关系,最优决策,中煤,煤岩分界,中设计,Linux,进刀,三维仿真,仿真实验平台,函数学习,放顶煤,智能放煤,放煤工艺,平均奖,单轮,传统工艺,综合机械化开采
AB值:
0.325046
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。