首站-论文投稿智能助手
典型文献
面向状态可变数据流的集群调度综述
文献摘要:
状态可变数据流(Mutable States Data Flow,MS-DF)是机器学习系统运行时的主要特征,MS-DF可由有向图来表示,其顶点由算子构成,表示机器学习运算逻辑;边代表算子之间的输入输出依赖关系.MS-DF的集群调度是保障机器学习系统高效运行的主要工作,如何高效进行MS-DF的集群调度已经成为机器学习的研究热点.其中,机器学习系统(TensorFlow、PyTorch等)作为中间层解耦了机器学习运算逻辑和资源分配(CPU,GPU,FGPA),从而机器学习无需再"独占式"静态绑定资源,而是由机器学习系统运行时动态管理,而算子是该解耦过程的关键要素,这给MS-DF的集群调度带来了新的挑战,这些挑战主要由算子资源需求刻画的准确性、算子调度决策的适应性和算子调度调整的差异性这三方面导致的.首先介绍算子资源需求的感知、协同两个机制,以克服多种算子组合导致其自身资源需求难以准确刻画的挑战;然后,通过决策约束、决策模型和决策求解来介绍算子调度决策,以应对算子状态频繁变化带来的适应性挑战;接着,介绍迁移、伸缩、挂起恢复等算子调度调整策略,以适用于不同算子状态同步方式带来的差异性挑战.最后,基于上述三个挑战,对近年来的集群调度最新研究成果进行归纳和分析,并展望MS-DF的集群调度,指出算子异构资源需求多层次分析及协同刻画、算子复杂调度约束的灵活定义和发现、学习驱动的算子低成本调度调整技术是其主要发展方向.
文献关键词:
机器学习系统;状态可变数据流;机器学习算子;算子资源需求刻画;算子调度决策;算子调度调整
作者姓名:
许源佳;吴恒;杨晨;吴悦文;张文博;王焘
作者机构:
中国科学院大学 北京100190;中国科学院软件研究所软件工程技术研究开发中心 北京 100190;中国科学院软件研究所计算机科学国家重点实验室 北京100190
文献出处:
引用格式:
[1]许源佳;吴恒;杨晨;吴悦文;张文博;王焘-.面向状态可变数据流的集群调度综述)[J].计算机学报,2022(05):973-992
A类:
状态可变数据流,Mutable,算子资源需求刻画,算子调度决策,算子调度调整,机器学习算子
B类:
集群调度,States,Data,DF,机器学习系统,有向图,顶点,输入输出,依赖关系,系统高效运行,TensorFlow,PyTorch,中间层,解耦,资源分配,CPU,GPU,FGPA,独占,绑定,动态管理,和算,子组,决策模型,伸缩,挂起,调整策略,状态同步,异构资源,多层次分析,杂调,学习驱动
AB值:
0.220675
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。