典型文献
基于MPI的并行大数据集生成器
文献摘要:
大数据处理分析算法在优化研究过程中,速度常常受限于数据集的规模.在数据集体量不足时,算法的通信时间往往要高于真正的计算时间,无法验证真实的效果.故设计实现了一个大数据集生成器,为运行在超级计算机上的并行大数据处理分析算法提供基准测试数据集.首先,使用MPI并行编程技术构造了一个并行随机数生成器,在此基础上设计实现了可控制规模及复杂性的人工数据集,主要包括:分类和聚类数据集、回归数据集、流形学习数据集和因子分解数据集等.其次,设计了大数据集生成器的I/O系统,提供MPI-I/O并行读、写数据集的接口,并设置了数据集在不同进程间的分发、映射规则,通过点对点通信实现不同节点之间的数据交互.实验结果表明,并行大数据集生成器有效提高了数据生成效率和生成规模,为并行大数据处理分析算法提供了高质量、大体量的测试数据集.
文献关键词:
MPI;大数据集生成器;I/O系统;并行大数据处理算法;算法测试
中图分类号:
作者姓名:
葛旭冉;刘洋;陈志广;肖侬
作者机构:
国防科技大学计算机学院,湖南长沙 410073;中山大学计算机学院,广东广州 510006
文献出处:
引用格式:
[1]葛旭冉;刘洋;陈志广;肖侬-.基于MPI的并行大数据集生成器)[J].计算机工程与科学,2022(07):1152-1161
A类:
大数据集生成器,并行大数据处理算法
B类:
MPI,数据处理分析,研究过程,受限于,计算时间,设计实现,超级计算机,基准测试,测试数据,编程技术,技术构造,随机数生成器,控制规模,聚类数,流形学习,学习数据,因子分解,解数,映射规则,点对点通信,通信实现,数据交互,数据生成,生成效率,成规,大体量,算法测试
AB值:
0.267395
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。