典型文献
基于深度循环双Q网络的无人机避障算法研究
文献摘要:
针对传统强化学习方法在机器运动规划领域,尤其是无人机避障问题上存在价值函数过度估计以及部分可观测性导致网络训练过程中训练时间长、难以收敛的问题,提出一种基于深度循环双Q网络的无人机避障算法.通过将单网络结构变换为双网络结构,解耦最优动作选择和动作价值估计降低价值函数过度估计;在双网络模块的全连接层引入GRU循环神经网络模块,利用GRU处理时间维度信息,增强真实神经网络的可分析性,提高算法在部分可观察环境中的性能.在此基础上,结合强化学习优先经验回放机制加快网络收敛.在仿真环境中分别对原有算法以及改进算法进行测试,实验结果表明,该算法在训练时间、避障成功率以及鲁棒性方面均有更好的性能.
文献关键词:
深度强化学习;无人机;避障;循环神经网络;DDQN
中图分类号:
作者姓名:
魏瑶;刘志成;蔡彬;陈家新;杨尧;张凯
作者机构:
西北工业大学航天学院,陕西西安 710072;空军装备部驻北京地区军事代表局驻天津地区第三军事代表室,天津 300000;上海航天控制技术研究所,上海 201109;中国航天科技集团有限公司红外探测技术研发中心,上海 201109;西北工业大学无人系统技术研究院,陕西西安 710072
文献出处:
引用格式:
[1]魏瑶;刘志成;蔡彬;陈家新;杨尧;张凯-.基于深度循环双Q网络的无人机避障算法研究)[J].西北工业大学学报,2022(05):970-979
A类:
B类:
无人机避障,避障算法,算法研究,强化学习方法,运动规划,存在价值,价值函数,部分可观测,可观测性,网络训练,训练过程,训练时间,双网络,解耦,作价,低价,全连接层,GRU,循环神经网络,处理时间,时间维度,分析性,优先经验回放,经验回放机制,网络收敛,仿真环境,改进算法,深度强化学习,DDQN
AB值:
0.384156
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。