首站-论文投稿智能助手
典型文献
基于环境状态分布优化的POMDP值迭代求解算法
文献摘要:
基于点的值迭代算法是一类解决 POMDP问题的有效算法,PBVI 是基于点集的经典算法,但是其算法效率较为低下.FSVI使用内在的 MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差.为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的QMDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量.在四个基准问题上的实验表明,相比于 FSVI 和 PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解.
文献关键词:
部分可观测马尔可夫决策过程;可达信念空间;智能体规划
作者姓名:
朱荣鑫;王譞;刘峰;赵志宏
作者机构:
海南大学 网络空间安全学院,海口570208;南京特殊教育师范学院,南京210038;南京大学 软件学院,南京210093;南京工业大学,南京211816
文献出处:
引用格式:
[1]朱荣鑫;王譞;刘峰;赵志宏-.基于环境状态分布优化的POMDP值迭代求解算法)[J].计算机应用研究,2022(02):374-378
A类:
PBVI,FSVI,QMDP,可达信念空间,智能体规划
B类:
分布优化,POMDP,迭代求解,求解算法,值迭代算法,点集,算法效率,最优策略,来降,低算法复杂度,大规模问题,向搜索,OSD,权重值,转换函数,索价,后继,念点,升值,迭代收敛,基准问题,收敛效率,全局最优解,部分可观测马尔可夫决策过程
AB值:
0.316364
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。