基于环境状态分布优化的POMDP值迭代求解算法|朱荣鑫;王譞;刘峰;赵志宏|南京特殊教育师范学院,南京210038 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于环境状态分布优化的POMDP值迭代求解算法

文献摘要：

基于点的值迭代算法是一类解决 POMDP问题的有效算法,PBVI 是基于点集的经典算法,但是其算法效率较为低下.FSVI使用内在的 MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差.为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的QMDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量.在四个基准问题上的实验表明,相比于 FSVI 和 PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解.

文献关键词：

部分可观测马尔可夫决策过程;可达信念空间;智能体规划

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[3] 电工技术（TM） / 输配电工程、电力网及电力系统（TM7） / 电力系统的调度、管理、通信（TM73）

作者姓名：

朱荣鑫;王譞;刘峰;赵志宏

作者机构：

海南大学网络空间安全学院,海口570208;南京特殊教育师范学院,南京210038;南京大学软件学院,南京210093;南京工业大学,南京211816

文献出处：

计算机应用研究

引用格式：

[1]朱荣鑫;王譞;刘峰;赵志宏-.基于环境状态分布优化的POMDP值迭代求解算法)[J].计算机应用研究,2022(02):374-378

A类：

PBVI,FSVI,QMDP,可达信念空间,智能体规划

B类：

分布优化,POMDP,迭代求解,求解算法,值迭代算法,点集,算法效率,最优策略,来降,低算法复杂度,大规模问题,向搜索,OSD,权重值,转换函数,索价,后继,念点,升值,迭代收敛,基准问题,收敛效率,全局最优解,部分可观测马尔可夫决策过程

AB值：

0.316364

相似文献

基于深度Q网络的多目标任务卸载算法

邓世权;叶绪国-凯里学院大数据工程学院,贵州凯里556011;凯里学院理学院,贵州凯里556011

基于强化学习的交通情景问题决策优化

罗飞;白梦伟-华东理工大学计算机科学与工程系,上海200237

一种基于最大最小策略和非均匀变异的萤火虫算法

赵嘉;陈丹丹;肖人彬;樊棠怀-南昌工程学院信息工程学院, 江西南昌 330099;华中科技大学人工智能与自动化学院, 湖北武汉430074

基于分区域处理的低剂量CT重建算法

赵霞;赵金龙;赵荣格;陈燕;桂志国;刘祎-中北大学山西省生物医学成像与影像大数据重点实验室,山西太原030051;中北大学信息与通信工程学院,山西太原030051

基于特征正则稀疏关联的无监督特征选择方法

白圣子;降爱莲-太原理工大学信息与计算机学院,山西晋中 030600

云环境下改进SOS的多目标任务调度算法

陈艺;江芝蒙;张渝-四川文理学院智能制造学院,四川达州 635000;四川文理学院信息化建设与服务中心,四川达州 635000;西南大学计算机与信息科学学院,重庆 400715

基于马尔科夫决策过程的服务迁移策略

罗艺;江凌云-南京邮电大学通信与信息工程学院,江苏南京 210003

面向铁路集装箱的高可靠低时延无线资源分配算法

胥昊;曹桂均;闫璐;李科;王振宏-中国铁道科学研究院研究生部北京100081;中国铁道科学研究院通信信号研究所北京100081;中国铁道科学研究院科技和信息化部北京100081

基于动态网络的自适应策略推理框架

张红杰;曲成;李京-中国科学技术大学计算机科学与技术学院,合肥230026

动态调整成长方式的郊狼优化算法及其应用

严逍亚;王振雷;王昕-华东理工大学能源化工过程智能制造教育部重点实验室,上海200237;上海交通大学电工与电子技术中心,上海200240

基于深度强化学习的云边协同DNN推理

刘先锋;梁赛;李强;张锦-湖南师范大学信息科学与工程学院,长沙 410081

车联网中基于DDQN的边云协作任务卸载机制

于晶;鲁凌云;李翔-北京交通大学计算机与信息技术学院,北京 100044;北京交通大学软件学院,北京 100044

基于阈值筛选的室内定位优化算法

柴晨境;刘宾;潘晋孝-中北大学信息与通信工程学院,山西太原 030051

基于多智能体强化学习的无人机群室内辅助救援

郭天昊;张钢;岳文渊;王倩;郭大波-山西大学物理电子工程学院, 太原 030006

基于自适应遗传算法的改进及实现

杨森;刘新平;李克文-中国石油大学(华东)计算机科学与技术学院青岛 266580

粒子群算法改进灰狼算法的机器人路径规划

梁景泉;周子程;刘秀燕-青岛理工大学信息与控制工程学院,山东青岛266525

基于Metropolis准则的自适应模拟退火粒子群优化

邓绍强;郭宗建;李芳;汤可宗;刘康-景德镇陶瓷大学信息工程学院,江西景德镇333403

自适应IQA阈值序列图像NLM超分辨重建方法

韦子先;熊正强;毛昱童;孙涛-武汉大学电子信息学院,武汉 430072

二进制粒子群算法融合遗传算法路径规划方法

夏梓尧-安徽理工大学电气与信息工程学院,淮南 232001

基于迁移学习的机械制图智能评阅方法

高一聪;王彦坤;费少梅;林琼-浙江大学流体动力与机电系统国家重点实验室,浙江杭州 310027;浙江工业大学机械工程学院,浙江杭州 310014

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。