首站-论文投稿智能助手
典型文献
基于GPU架构的两层并行块Jacobi SVD算法
文献摘要:
SVD(singular value decomposition)广泛应用于图像处理、人脸识别、信号降噪等领域.本文基于单边Jacobi SVD算法给出了块间和块内两层并行的块Jacobi SVD GPU算法.为了更好地利用GPU的共享内存,块间并行通过存储矩阵列块之间的内积解决了共享内存不足的问题.此外,块间并行还通过矩阵块操作技术提高数据利用率及数据预取技术实现数据访问和数据计算的重叠.块内并行通过直接更新矩阵列块之间的内积替代了更新矩阵列块以及更新矩阵列块之后计算矩阵列块之间内积的归约操作,增加了GPU线程的利用率.另一方面,块内并行将需要多次访问的数据存储于共享内存或寄存器,减少了对全局内存的访问从而提升了算法实现性能.在NVIDIA Tesla V100 GPU上的数值实验结果表明,本文的算法较Cusolver库有1.8x倍的加速,较MAGMA库中最快的算法加速达2.5 x倍.
文献关键词:
奇异值分解;块Jacobi算法;并行算法;GPU;数据预取技术
作者姓名:
黄荣锋;赵永华;于天禹;刘世芳
作者机构:
中国科学院计算机网络信息中心,北京100190;中国科学院大学,北京100049
引用格式:
[1]黄荣锋;赵永华;于天禹;刘世芳-.基于GPU架构的两层并行块Jacobi SVD算法)[J].数值计算与计算机应用,2022(04):380-399
A类:
数据预取技术,归约操作,Cusolver
B类:
GPU,两层,Jacobi,SVD,singular,value,decomposition,人脸识别,信号降噪,单边,共享内存,列块,内积,内存不足,操作技术,技术提高,数据利用率,数据访问,数据计算,线程,行将,次访问,数据存储,寄存器,局内,算法实现,NVIDIA,Tesla,V100,数值实验,8x,MAGMA,速达,奇异值分解,并行算法
AB值:
0.391278
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。