典型文献
分布式机器学习系统网络性能优化研究进展
文献摘要:
以机器学习为代表的人工智能技术需要对海量数据进行处理,对底层算力要求极高.分布式机器学习通过将计算任务分布式地部署到多个计算节点来加快模型的训练速度,从而将训练任务完成时间降低到可接受范围.由于通信开销对分布式机器学习系统的扩展性具有重要影响,因此,分布式机器学习系统网络性能优化受到各界研究者的广泛关注.本文首先分析了分布式机器学习系统扩展性不足的主要原因,并提出了改善其扩展性的关键思路,然后系统地综述了分布式机器学习系统网络性能优化相关的研究工作,并对这些研究工作从多个角度进行了对比分析.最后,对分布式机器学习系统网络性能优化研究的未来发展趋势进行了展望.
文献关键词:
分布式机器学习系统;网络优化;参数同步;通信调度;网内聚合
中图分类号:
作者姓名:
王帅;李丹
作者机构:
清华大学计算机科学与技术系 北京 100084;北京信息科学与技术国家研究中心 北京 100084
文献出处:
引用格式:
[1]王帅;李丹-.分布式机器学习系统网络性能优化研究进展)[J].计算机学报,2022(07):1384-1411
A类:
分布式机器学习系统,网内聚合
B类:
网络性能,性能优化,海量数据,算力,学习通,计算节点,训练速度,训练任务,任务完成时间,通信开销,扩展性,系统扩展,关键思路,网络优化,参数同步,通信调度
AB值:
0.15903
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。