首站-论文投稿智能助手
典型文献
基于Bandit反馈的在线分布式镜面下降算法
文献摘要:
针对在线分布式优化中一类损失函数梯度信息获取困难的问题,提出一种基于Bandit反馈的在线分布式镜面下降(ODMD-B)算法.首先,推广在线分布式镜面梯度下降(ODMD)算法到免梯度的情形,提出了一种新的仅利用函数值信息来对梯度进行估计的方法即Bandit反馈,其关键在于利用损失函数值信息逼近梯度信息,能有效克服梯度信息难以获取或计算复杂的困难.然后,给出算法的收敛性分析.结果 表明算法的收敛速度为O(√T),其中T是迭代次数.最后,使用投资组合选择模型进行了数值仿真实验.实验结果表明,ODMD-B算法的收敛速度与已有的ODMD算法的收敛速度接近.对比ODMD算法,本文所提出算法的优点在于仅仅使用了计算花费较小的函数值信息,使其更适用于梯度信息难以获取的优化问题.
文献关键词:
在线学习;分布式优化;镜面下降算法;Bandit反馈;Regret界
作者姓名:
朱小梅;李觉友
作者机构:
重庆师范大学数学科学学院,重庆401331;重庆两江新区博雅小学校,重庆401121
引用格式:
[1]朱小梅;李觉友-.基于Bandit反馈的在线分布式镜面下降算法)[J].西南大学学报(自然科学版),2022(01):99-107
A类:
镜面下降算法,ODMD,Regret
B类:
Bandit,分布式优化,损失函数,梯度信息,信息获取,梯度下降,函数值,逼近,收敛性分析,收敛速度,迭代次数,投资组合选择,数值仿真实验,计算花费,优化问题,在线学习
AB值:
0.217701
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。