当前位置: X-MOL 学术arXiv.cs.PF › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Cross-layer Visualization and Profiling of Network and I/O Communication for HPC Clusters
arXiv - CS - Performance Pub Date : 2021-09-17 , DOI: arxiv-2109.08329
Pouya Kousha, Quentin Anthony, Hari Subramoni, Dhabaleswar K. Panda

Understanding and visualizing the full-stack performance trade-offs and interplay between HPC applications, MPI libraries, the communication fabric, and the file system is a challenging endeavor. Designing a holistic profiling and visualization method for HPC communication networks is challenging since different levels of communication coexist and interact with each other on the communication fabric. A breakdown of traffic is essential to understand the interplay of different layers along with the application's communication behavior without losing a general view of network traffic. Unfortunately, existing profiling tools are disjoint and either focus on only profiling and visualizing a few levels of the HPC stack, which limits the insights they can provide, or they provide extremely detailed information which necessitates a steep learning curve to understand. We target our profiling tool visualization to provide holistic and real-time insights into HPC communication stacks. In this paper, we propose and implement our visualization methods to enable holistic insight for representing the cross-stack metrics. Moreover, we propose and implement a low-overhead I/O profiling inside the communication library, collect and store the profiling information, and then study the correlation and evaluation of I/O traffic with MPI communication using a cross-stack approach by INAM. Through experimental evaluations and use cases, we demonstrate novel benefits of our cross-stack communication analysis in real-time to detect bottlenecks and understand communication performance.

中文翻译:

HPC 集群的网络和 I/O 通信的跨层可视化和分析

理解和可视化 HPC 应用程序、MPI 库、通信结构和文件系统之间的全栈性能权衡和相互作用是一项具有挑战性的工作。为 HPC 通信网络设计整体分析和可视化方法具有挑战性,因为不同级别的通信在通信结构上共存并相互交互。流量细分对于了解不同层的相互作用以及应用程序的通信行为而不会丢失网络流量的一般视图至关重要。不幸的是,现有的分析工具是不相交的,要么只专注于分析和可视化 HPC 堆栈的几个级别,这限制了它们可以提供的洞察力,或者它们提供了非常详细的信息,这需要陡峭的学习曲线才能理解。我们的目标是分析工具可视化,以提供对 HPC 通信堆栈的全面和实时洞察。在本文中,我们提出并实施了我们的可视化方法,以实现表示跨堆栈指标的整体洞察力。此外,我们在通信库中提出并实现了低开销 I/O 分析,收集和存储分析信息,然后使用 INAM 的跨堆栈方法研究 I/O 流量与 MPI 通信的关联和评估。通过实验评估和用例,我们展示了实时跨堆栈通信分析的新优势,以检测瓶颈并了解通信性能。我们的目标是分析工具可视化,以提供对 HPC 通信堆栈的全面和实时洞察。在本文中,我们提出并实施了我们的可视化方法,以实现表示跨堆栈指标的整体洞察力。此外,我们在通信库中提出并实现了低开销 I/O 分析,收集和存储分析信息,然后使用 INAM 的跨堆栈方法研究 I/O 流量与 MPI 通信的关联和评估。通过实验评估和用例,我们展示了实时跨堆栈通信分析的新优势,以检测瓶颈并了解通信性能。我们的目标是分析工具可视化,以提供对 HPC 通信堆栈的全面和实时洞察。在本文中,我们提出并实施了我们的可视化方法,以实现表示跨堆栈指标的整体洞察力。此外,我们在通信库中提出并实现了低开销 I/O 分析,收集和存储分析信息,然后使用 INAM 的跨堆栈方法研究 I/O 流量与 MPI 通信的关联和评估。通过实验评估和用例,我们展示了实时跨堆栈通信分析的新优势,以检测瓶颈并了解通信性能。我们提出并实施了我们的可视化方法,以实现代表跨堆栈指标的整体洞察力。此外,我们在通信库中提出并实现了低开销 I/O 分析,收集和存储分析信息,然后使用 INAM 的跨堆栈方法研究 I/O 流量与 MPI 通信的关联和评估。通过实验评估和用例,我们展示了实时跨堆栈通信分析的新优势,以检测瓶颈并了解通信性能。我们提出并实施我们的可视化方法,以实现表示跨堆栈指标的整体洞察力。此外,我们在通信库中提出并实现了低开销 I/O 分析,收集和存储分析信息,然后使用 INAM 的跨堆栈方法研究 I/O 流量与 MPI 通信的关联和评估。通过实验评估和用例,我们展示了实时跨堆栈通信分析的新优势,以检测瓶颈并了解通信性能。然后使用INAM 的跨堆栈方法研究I/O 流量与MPI 通信的相关性和评估。通过实验评估和用例,我们展示了实时跨堆栈通信分析的新优势,以检测瓶颈并了解通信性能。然后使用INAM 的跨堆栈方法研究I/O 流量与MPI 通信的相关性和评估。通过实验评估和用例,我们展示了实时跨堆栈通信分析的新优势,以检测瓶颈并了解通信性能。
更新日期:2021-09-20
down
wechat
bug