典型文献
基于分层强化学习和社会偏好的自主超车决策系统
文献摘要:
针对超车过程中主车和被超越车之间的交互行为,引入心理学中的"社会偏好"来描述被超越车辆的纵向行为特征,并通过数据驱动的分类方法,提取社会偏好并将其融合在基于强化学习的自主超车决策系统设计中,通过分析大量真实超车数据中被超越车辆的社会偏好,认为该方法能够根据不同偏好情况产生合理的决策指令.首先,从大量真实超车数据中计算超车交互过程中被超越车辆的状态转移概率,并将其分成了 3类(利他型、利己型和互惠型),并设计一种半基于模型改进的Q-learning算法,将3种社会偏好的概率考虑在决策模型训练中;然后,搭建实时的社会偏好分类器用于对被超越车辆社会偏好的实时分类;再结合换道控制器的研究结果,组合构建完整的分层强化学习 自主超车系统;最后,通过实车采集数据与仿真环境进行了自主超车的联合验证.研究结果表明:考虑了社会偏好的自主超车决策系统能够对被超越车辆的社会偏好进行实时预测,进而在更加复杂的超车情况中做出合理的决策;相比于不考虑社会偏好的传统自主超车系统,构建的自主超车系统展现了更好的舒适性和稳定性.研究结果创新性地将数据驱动的社会偏好作用于超车决策过程,提升了决策的自适应性和合理性,将有助于发展安全可靠的自主超车系统.
文献关键词:
汽车工程;自主超车决策系统;分层强化学习;先进驾驶人辅助系统;社会偏好;半基于模型的 Q-learning
中图分类号:
作者姓名:
吕超;鲁洪良;于洋;王昊阳;吴绍斌
作者机构:
北京理工大学机械与车辆学院,北京 100081
文献出处:
引用格式:
[1]吕超;鲁洪良;于洋;王昊阳;吴绍斌-.基于分层强化学习和社会偏好的自主超车决策系统)[J].中国公路学报,2022(03):115-126
A类:
自主超车决策系统,先进驾驶人辅助系统
B类:
分层强化学习,社会偏好,交互行为,入心,行为特征,分类方法,中计,状态转移概率,利他,利己,互惠,基于模型,模型改进,learning,决策模型,模型训练,分类器,器用,实时分类,换道控制,车系,采集数据,仿真环境,实时预测,舒适性,决策过程,自适应性,发展安全,汽车工程
AB值:
0.230752
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。