当前位置: X-MOL 学术Parallel Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
QTMS: A quadratic time complexity topology-aware process mapping method for large-scale parallel applications on shared HPC system
Parallel Computing ( IF 2.0 ) Pub Date : 2020-04-29 , DOI: 10.1016/j.parco.2020.102637
Baicheng Yan , Limin Xiao , Guangjun Qin , Zhang Yang , Bin Dong , Haonan Yu , Hongyu Wu

Communication exacerbates the performance for parallel applications with thousands of CPU cores and quantities of data to exchange. The high communication cost is usually attributed to the mismatch between the communication patterns of parallel applications and the physical topology graphs of the computing resources (or the underlying network topologies). The topology-aware process mapping method can usually obtain a better embedding scheme with the aim to improve communication performance. Many existing heuristic-search based mapping methods have high execution time for large-scale applications. Some low-cost graph-partitioning based mapping methods depend on that the allocated resources form a regular structure, which is usually impractical in most high performance computing systems shared by multiple users and applications. This weakens their performance. Other graph-partitioning based mapping methods come at a high cost or require users to provide the network structure information. To address these issues, a quadratic time complexity topology-aware process mapping method is presented in this paper. The experimental results show that the proposed method often achieves a better application communication performance than several state-of-the-art mapping methods on a shared HPC system, while maintaining a significantly lower execution cost. Moreover, the real-world scientific application proxies gain an execution time reduction as large as 14.60% in the 512 process-scale compared to the system default process placement on the TianHe-2 HPC systems.



中文翻译:

QTMS:用于共享HPC系统上大规模并行应用的二次时间复杂度拓扑感知过程映射方法

通信使用数千个CPU内核和大量要交换的数据来增强并行应用程序的性能。高通信成本通常归因于并行应用程序的通信模式与计算资源的物理拓扑图(或基础网络拓扑)之间的不匹配。拓扑感知过程映射方法通常可以获得更好的嵌入方案,以提高通信性能。许多现有的基于启发式搜索的映射方法对于大规模应用程序都有很高的执行时间。一些基于低成本图分区的映射方法依赖于分配的资源形成规则的结构,这在由多个用户和应用程序共享的大多数高性能计算系统中通常是不切实际的。这会削弱其性能。其他基于图分区的映射方法成本很高,或者需要用户提供网络结构信息。为了解决这些问题,本文提出了一种二次时间复杂度拓扑感知的过程映射方法。实验结果表明,与共享共享HPC系统上的几种最新映射方法相比,所提出的方法通常可以实现更好的应用程序通信性能,同时又可以显着降低执行成本。此外,与在TianHe-2 HPC系统上的系统默认处理位置相比,现实世界中的科学应用代理在512处理规模中的执行时间减少了14.60%。其他基于图分区的映射方法成本很高,或者需要用户提供网络结构信息。为了解决这些问题,本文提出了一种二次时间复杂度拓扑感知的过程映射方法。实验结果表明,与共享共享HPC系统上的几种最新映射方法相比,所提出的方法通常可以实现更好的应用程序通信性能,同时又可以显着降低执行成本。此外,与在TianHe-2 HPC系统上的系统默认处理位置相比,现实世界中的科学应用代理在512处理规模中的执行时间减少了14.60%。其他基于图分区的映射方法成本很高,或者需要用户提供网络结构信息。为了解决这些问题,本文提出了一种二次时间复杂度拓扑感知的过程映射方法。实验结果表明,与共享共享HPC系统上的几种最新映射方法相比,所提出的方法通常可以实现更好的应用程序通信性能,同时又可以显着降低执行成本。此外,与在TianHe-2 HPC系统上的系统默认处理位置相比,现实世界中的科学应用代理在512处理规模中的执行时间减少了14.60%。实验结果表明,与共享共享HPC系统上的几种最新映射方法相比,所提出的方法通常可以实现更好的应用程序通信性能,同时又可以显着降低执行成本。此外,与在TianHe-2 HPC系统上的系统默认处理位置相比,现实世界中的科学应用代理在512处理规模中的执行时间减少了14.60%。实验结果表明,与共享共享HPC系统上的几种最新映射方法相比,所提出的方法通常可以实现更好的应用程序通信性能,同时又可以显着降低执行成本。此外,与TianHe-2 HPC系统上的系统默认处理位置相比,现实世界中的科学应用代理在512个处理规模中的执行时间减少了14.60%。

更新日期:2020-04-29
down
wechat
bug