首站-论文投稿智能助手
典型文献
基于Ring All-Reduce的高扩展性分布式机器学习架构
文献摘要:
如今,机器学习广泛应用于各个行业,然而随着当下各种应用场景的数据量的增大,分布式机器学习几乎成为唯一的选择.因此,各个设备之间的数据通讯的优化十分重要.在参数服务器架构中,参数同步通信量大,参数服务器节点的带宽会成为瓶颈;而在基于Ring All-Reduce的框架下,通信时间受限于环上最慢的连接,当环中GPU节点数变多的时候,会导致延迟变大.该文提出一种基于Ring All-Reduce的分层架构,将计算节点按算力大小分成多个小组,组内使用Ring All-Reduce算法进行同步并行,小组间使用参数服务器架构实现异步并行,保证模型收敛的条件下,兼顾各个节点的负载均衡.
文献关键词:
分布式机器学习;联邦学习;分层Ring All-Reduce
作者姓名:
黄纯悦;杨宇翔
作者机构:
东北大学计算机科学与工程学院,辽宁沈阳 110169
文献出处:
引用格式:
[1]黄纯悦;杨宇翔-.基于Ring All-Reduce的高扩展性分布式机器学习架构)[J].电脑知识与技术,2022(06):54-56,59
A类:
B类:
Ring,All,Reduce,高扩展性,分布式机器学习,学习架构,数据量,数据通讯,参数服务器,服务器架构,参数同步,同步通信,通信量,受限于,最慢,环中,GPU,分层架构,计算节点,点按,算力,行同,同步并行,异步,负载均衡,联邦学习
AB值:
0.374676
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。