典型文献
基于改进Dueling DQN的多园区网络动态路由算法
文献摘要:
针对高度"中心"连接的多园区网络中,负载不均衡造成传输时延长和网络拥塞问题,提出一种基于自适应多采样机制的决斗深度强化网络(adaptive multi-sampling Dueling deep Q-network,AMD-DQN)动态路由优化算法.首先,在网络模型中引入决斗网络(dueling DQN)的思想,同时对多层感知器组成结构进行中心化处理改进,防止高估计价值函数;然后,经验回放机制采用了自适应多采样机制,该机制融合了随机、就近和优先采样方式,根据负载情况进行自适应调整,并根据权值概率随机选取采样模式;最后,利用AMD-DQN网络结构结合强化学习信号和随机梯度下降来训练神经网络,选出每步最大价值动作,直至传输成功.实验结果表明,相比传统的DQN和Dueling DQN算法,AMD-DQN算法平均时延为128.046 ms,吞吐量达到5.726个/s,有效减少了数据包的传输时延,提高了吞吐量,同时从5个方向对拥塞程度进行评价,取得了较好的实验结果,进一步缓解了网络的拥塞.
文献关键词:
动态路由;深度强化学习;决斗网络;自适应多采样经验回放
中图分类号:
作者姓名:
李国燕;史东雨;张宗辉
作者机构:
天津城建大学计算机与信息工程学院 天津 300392
文献出处:
引用格式:
[1]李国燕;史东雨;张宗辉-.基于改进Dueling DQN的多园区网络动态路由算法)[J].电子测量与仪器学报,2022(11):211-220
A类:
决斗网络,自适应多采样经验回放
B类:
Dueling,DQN,多园区,园区网络,网络动态,动态路由算法,传输时延,网络拥塞,拥塞问题,采样机制,adaptive,multi,sampling,deep,network,AMD,路由优化,dueling,多层感知器,组成结构,高估,计价,价值函数,经验回放机制,该机,就近,采样方式,自适应调整,权值,采样模式,随机梯度下降,每步,输成,平均时延,ms,吞吐量,数据包,深度强化学习
AB值:
0.32719
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。