典型文献
基于SARSA强化学习的审判人力资源调度方法
文献摘要:
为对法官员额资源进行调度优化,平衡司法资源有限和现实司法需求之间的矛盾,该文建立审判人力资源调度优化模型,提出基于强化学习的审判团队调度优化策略.基于对审判人员调度问题和场景的分析,建立以案件的平均处理时间最小化为优化目标的审判人员调度优化数学模型以及相应的约束条件.在此基础上建立宏观的司法系统排队模型,定义审判人力资源调度马尔可夫决策过程,并基于状态/动作/奖励/状态/动作(Sate-Action-Reward-State-Action,SARSA)算法提出动态自适应的审判人员调度强化学习算法.该算法以案件的平均处理时间为奖励,通过贪婪行为策略选择调度策略,采用时序差分更新方法在与司法系统交互的过程中学习最优调度策略.相比于传统分案方法及其他基于规则的简单启发式算法,该算法能够提高案件审判效率、优化人力资源配置.
文献关键词:
强化学习;资源调度;决策优化;贪婪策略;马尔可夫决策过程
中图分类号:
作者姓名:
吴鹏;魏上清;董嘉鹏;潘理
作者机构:
上海交通大学 电子信息与电气工程学院,上海 200240;信息内容分析技术国家工程实验室,上海 200240
文献出处:
引用格式:
[1]吴鹏;魏上清;董嘉鹏;潘理-.基于SARSA强化学习的审判人力资源调度方法)[J].计算机技术与发展,2022(09):82-88
A类:
Sate
B类:
SARSA,调度方法,法官员额,司法资源,资源调度优化,调度优化策略,人员调度,调度问题,处理时间,优化目标,法系,排队模型,马尔可夫决策过程,Action,Reward,State,出动,动态自适应,强化学习算法,行为策略,策略选择,调度策略,更新方法,最优调度,分案,基于规则,启发式算法,案件审判,优化人力资源,人力资源配置,决策优化,贪婪策略
AB值:
0.355045
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。