首站-论文投稿智能助手
典型文献
基于深度强化学习的多域联合干扰规避
文献摘要:
无线通信系统的信道开放性使其极易受到外部恶意干扰、通信链路质量难以保证,针对以上问题,本文设计了一种基于深度强化学习的多域联合干扰规避决策方法.该方法联合频域、功率域、调制编码域三个域的抗干扰手段进行干扰规避,在考虑系统性能的同时实现可靠通信.首先,将联合智能干扰规避问题建模为一个马尔可夫决策过程(MDP,Markov Decision Process),动作空间包含切换信道、功率控制、改变调制编码方式.然后,采用基于剪裁的近端策略优化算法(PPO-Clip,Proximal Policy Optimization-Clip)求解获得系统的最优联合干扰规避策略.PPO-Clip算法在多回合训练中以小数量样本迭代更新,避免了策略梯度算法中步长难以确定和更新差异过大的问题.最后,分别在扫频干扰、随机扫频干扰和智能阻塞干扰环境下验证了所提算法的有效性和可靠性.
文献关键词:
干扰规避;深度强化学习;近端策略优化
作者姓名:
潘筱茜;张姣;刘琰;王杉;陈海涛;赵海涛;魏急波
作者机构:
国防科技大学电子科学学院,湖南长沙 410073;中国人民解放军91428部队,浙江宁波 315456
文献出处:
引用格式:
[1]潘筱茜;张姣;刘琰;王杉;陈海涛;赵海涛;魏急波-.基于深度强化学习的多域联合干扰规避)[J].信号处理,2022(12):2572-2581
A类:
B类:
深度强化学习,多域联合,干扰规避,无线通信系统,信道,恶意干扰,通信链路,链路质量,决策方法,频域,系统性能,可靠通信,智能干扰,马尔可夫决策过程,MDP,Markov,Decision,Process,动作空间,功率控制,变调,编码方式,剪裁,近端策略优化算法,PPO,Clip,Proximal,Policy,Optimization,规避策略,回合,合训,小数,迭代更新,策略梯度算法,步长,难以确定,扫频,阻塞干扰,干扰环境
AB值:
0.438347
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。