当前位置:
X-MOL 学术
›
arXiv.cs.MS
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
A Hybrid MPI-CUDA Approach for Nonequispaced Discrete Fourier Transformation
arXiv - CS - Mathematical Software Pub Date : 2020-01-01 , DOI: arxiv-2001.01583 Sheng-Chun Yang and Yong-Lei Wang
arXiv - CS - Mathematical Software Pub Date : 2020-01-01 , DOI: arxiv-2001.01583 Sheng-Chun Yang and Yong-Lei Wang
Nonequispaced discrete Fourier transformation (NDFT) is widely applied in all
aspects of computational science and engineering. The computational efficiency
and accuracy of NDFT has always been a critical issue in hindering its
comprehensive applications both in intensive and in extensive aspects of
scientific computing. In our previous work (2018, S.-C. Yang et al., Appl.
Comput. Harmon. Anal. 44, 273), a CUNFFT method was proposed and it shown
outstanding performance in handling NDFT at intermediate scale based on CUDA
(Compute Unified Device Architecture) technology. In the current work, we
further improved the computational efficiency of the CUNTTF method using an
efficient MPI-CUDA hybrid parallelization (HP) scheme of NFFT to achieve a
cutting-edge treatment of NDFT at super extended scale. Within this HP-NFFT
method, the spatial domain of NDFT is decomposed into several parts according
to the accumulative feature of NDFT and the detailed number of CPU and GPU
nodes. These decomposed NDFT subcells are independently calculated on different
CPU nodes using a MPI process-level parallelization mode, and on different GPU
nodes using a CUDA threadlevel parallelization mode and CUNFFT algorithm. A
massive benchmarking of the HP-NFFT method indicates that this method exhibit a
dramatic improvement in computational efficiency for handling NDFT at super
extended scale without loss of computational precision. Furthermore, the
HP-NFFT method is validated via the calculation of Madelung constant of
fluorite crystal structure, and thereafter verified that this method is robust
for the calculation of electrostatic interactions between charged ions in
molecular dynamics simulation systems.
中文翻译:
用于非等距离散傅立叶变换的混合 MPI-CUDA 方法
非等距离散傅立叶变换 (NDFT) 广泛应用于计算科学和工程的各个方面。NDFT 的计算效率和准确性一直是阻碍其在科学计算的密集和广泛方面综合应用的关键问题。在我们之前的工作 (2018, S.-C. Yang et al., Appl. Comput. Harmon. Anal. 44, 273) 中,提出了一种 CUNFFT 方法,它在基于 CUDA 的中等规模处理 NDFT 方面表现出出色的性能(计算统一设备架构)技术。在当前的工作中,我们使用 NFFT 的高效 MPI-CUDA 混合并行化 (HP) 方案进一步提高了 CUNTTF 方法的计算效率,以实现超扩展规模的 NDFT 前沿处理。在这种 HP-NFFT 方法中,根据 NDFT 的累积特征和 CPU 和 GPU 节点的详细数量,将 NDFT 的空间域分解为几个部分。这些分解后的 NDFT 子单元在不同 CPU 节点上使用 MPI 进程级并行化模式独立计算,在不同 GPU 节点上使用 CUDA 线程级并行化模式和 CUNFFT 算法独立计算。HP-NFFT 方法的大规模基准测试表明,该方法在超扩展范围内处理 NDFT 的计算效率显着提高,而不会损失计算精度。此外,通过计算萤石晶体结构的马德隆常数,验证了 HP-NFFT 方法,
更新日期:2020-08-06
中文翻译:
用于非等距离散傅立叶变换的混合 MPI-CUDA 方法
非等距离散傅立叶变换 (NDFT) 广泛应用于计算科学和工程的各个方面。NDFT 的计算效率和准确性一直是阻碍其在科学计算的密集和广泛方面综合应用的关键问题。在我们之前的工作 (2018, S.-C. Yang et al., Appl. Comput. Harmon. Anal. 44, 273) 中,提出了一种 CUNFFT 方法,它在基于 CUDA 的中等规模处理 NDFT 方面表现出出色的性能(计算统一设备架构)技术。在当前的工作中,我们使用 NFFT 的高效 MPI-CUDA 混合并行化 (HP) 方案进一步提高了 CUNTTF 方法的计算效率,以实现超扩展规模的 NDFT 前沿处理。在这种 HP-NFFT 方法中,根据 NDFT 的累积特征和 CPU 和 GPU 节点的详细数量,将 NDFT 的空间域分解为几个部分。这些分解后的 NDFT 子单元在不同 CPU 节点上使用 MPI 进程级并行化模式独立计算,在不同 GPU 节点上使用 CUDA 线程级并行化模式和 CUNFFT 算法独立计算。HP-NFFT 方法的大规模基准测试表明,该方法在超扩展范围内处理 NDFT 的计算效率显着提高,而不会损失计算精度。此外,通过计算萤石晶体结构的马德隆常数,验证了 HP-NFFT 方法,