首站-论文投稿智能助手
典型文献
基于多智能体深度强化学习的车联网通信资源分配优化
文献摘要:
无线网络的高速发展为车联网提供了更好的支持,但是如何为高速移动车辆提供更高质量的服务仍然是一个挑战.通过分析多个车对车(Vehicle-to-Vehicle,V2V)链路重用的车对基础设施(Vehicle-to-Infrastructure,V2I)链路占用的频谱,研究了基于连续动作空间的多智能体深度强化学习的车联网中的频谱共享问题.车辆高移动性带来的信道的快速变化为集中式管理网络资源带来了局限性,因此将资源共享建模为多智能体深度强化学习问题,提出一种基于分布式执行的多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法.每个智能体与车联网环境进行交互并观察到自己的局部状态,均获得一个共同的奖励,通过汇总其他智能体的动作集中训练Critic网络,从而改善各个智能体选取的功率控制.通过设计奖励函数和训练机制,多智能体算法可以实现分布式资源分配,有效提高了V2I链路的总容量和V2V链路的传输速率.
文献关键词:
车联网;资源分配;强化学习;MADDPG
作者姓名:
方维维;王云鹏;张昊;孟娜
作者机构:
北京交通大学 计算机与信息技术学院,北京 100044
引用格式:
[1]方维维;王云鹏;张昊;孟娜-.基于多智能体深度强化学习的车联网通信资源分配优化)[J].北京交通大学学报,2022(02):64-72
A类:
B类:
多智能体深度强化学习,网通,通信资源分配,无线网络,何为,高速移动,移动车辆,更高质量,Vehicle,V2V,链路,重用,Infrastructure,V2I,于连,动作空间,频谱共享,移动性,信道,速变,集中式管理,管理网络,网络资源,学习问题,多智能体深度确定性策略梯度,Multi,Agent,Deep,Deterministic,Policy,Gradient,MADDPG,车联网环境,Critic,功率控制,设计奖,奖励函数,训练机制,分布式资源分配,传输速率
AB值:
0.388666
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。