典型文献
基于CPU+GPU异构并行的广义共轭余差算法性能优化
文献摘要:
为了提高GRAPES数值天气预报模式的计算效率,改善动力框架部分的性能,针对广义共轭余差算法(GCR)求解赫姆霍兹方程在GRAPES模式中耗时较大的问题,提出了一种基于CPU+GPU异构并行的预处理广义共轭余差算法.采用不完全LU分解对系数矩阵进行预处理来减少迭代次数,在此基础上实现了OpenMP的细粒度并行和MPI粗粒度并行,OpenMP并行主要是采用循环展开的方式对程序中无数据依赖的循环体使用编译制导来提高程序的性能;MPI并行主要是将数据划分给各个进程,采用非阻塞通信和优化进程通信数据量的方式来提高并行程序的可拓展性.实现了MPI+CUDA异构并行,MPI负责节点间进程通信以及迭代控制,CUDA负责处理计算密集型任务,将GCR中耗时较大的矩阵计算部分移植到GPU上处理,采用访存优化和数据传输优化来减少CPU和GPU间的数据传输开销.实验结果表明:与串行程序相比,OpenMP并行加速比为2.24,MPI并行加速比为3.32,MPI+CUDA异构并行加速比为4.69,实现了异构平台上的广义共轭余差算法性能优化,提高了程序的计算效率.
文献关键词:
GRAPES;广义共轭余差算法;GPU;异构并行
中图分类号:
作者姓名:
黄东强;黄建强;贾金芳;吴利;刘令斌;王晓英
作者机构:
青海大学计算机技术与应用系,青海西宁 810016
文献出处:
引用格式:
[1]黄东强;黄建强;贾金芳;吴利;刘令斌;王晓英-.基于CPU+GPU异构并行的广义共轭余差算法性能优化)[J].郑州大学学报(工学版),2022(06):15-21
A类:
广义共轭余差算法,无数据依赖
B类:
CPU+GPU,异构并行,算法性能,性能优化,GRAPES,数值天气预报模式,计算效率,动力框架,GCR,赫姆霍兹,用不完,LU,系数矩阵,迭代次数,OpenMP,细粒度,粗粒度,循环展开,循环体,编译,译制,制导,数据划分,分给,进程通信,通信数据,数据量,并行程序,可拓,拓展性,MPI+CUDA,迭代控制,计算密集型,矩阵计算,访存优化,数据传输优化,开销,串行,并行加速,加速比,异构平台
AB值:
0.3481
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。