典型文献
Spark任务间消息传递方法研究
文献摘要:
当今诸多工程问题及科学研究中,都面临着大数据处理和高性能计算任务的双重挑战.基于内存计算技术提出的分布式处理框架Spark已在学术和工业界得到了广泛的应用,但其MapReduce-like的编程模型在任务间无法进行通信,导致科学计算中的数值算法无法进行高效实现.针对上述问题,研究了一种Spark内存计算与MPI消息传递模型相结合的解决方案,充分利用内存访问存取快速的特点和MPI的多种高性能通信机制,解决了Spark编程模型表达能力不足的缺陷,同时为MPI提供了面向数据的DAG计算方式.通过对Spark内部的运行环境和调度系统进行修改,使得MPI在Spark中得以无缝融合,为高性能计算和大数据任务提供了一个统一的内存计算系统.测试结果表明,在数值计算和迭代算法上相比Spark至少有50%的性能提升.
文献关键词:
Spark;MPI;科学计算;内存计算;迭代算法
中图分类号:
作者姓名:
夏立斌;刘晓宇;孙玮;姜晓巍;孙功星
作者机构:
中国科学院 高能物理研究所,北京 100049;中国科学院大学,北京 100049
文献出处:
引用格式:
[1]夏立斌;刘晓宇;孙玮;姜晓巍;孙功星-.Spark任务间消息传递方法研究)[J].计算机工程与应用,2022(21):91-97
A类:
消息传递模型
B类:
Spark,工程问题,大数据处理,高性能计算,双重挑战,内存计算,计算技术,分布式处理,处理框架,工业界,MapReduce,like,科学计算,数值算法,MPI,存取,通信机制,表达能力,DAG,计算方式,运行环境,调度系统,无缝融合,计算系统,迭代算法,性能提升
AB值:
0.347028
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。