当前位置: X-MOL 学术Lobachevskii J. Math. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Automating Workload Analysis of Large-Scale Supercomputer Systems
Lobachevskii Journal of Mathematics ( IF 0.8 ) Pub Date : 2021-08-09 , DOI: 10.1134/s1995080221070210
P. A. Shvets 1, 2 , V. V. Voevodin 1, 2 , S. A. Zhumatiy 1
Affiliation  

Abstract

The architecture of modern supercomputers is extremely complex, so it is exceedingly difficult to monitor and maintain the efficiency of their functioning. And even if it is possible to collect the necessary data on the operation of all important supercomputer components, how not to drown in this ‘‘sea of information’’ and not miss the onset of a critical situation? This requires the automation of the workload analysis process. One of the possible solutions is to create a set of rules that automatically detect and notify supercomputer administrators about the occurrence of certain critical situations or cases of a significant decrease in the efficiency of supercomputer functioning. Such approach allows quickly identifying the most interesting and important situations for the administrator, as well as correctly prioritizing the workload analysis process in whole. This article describes the process of developing a set of 19 rules, each of which determines a way to detect the onset of a certain critical situation, provides a description of the possible causes of its occurrence, and also specifies the criticality of the situation that has arisen. These rules allow monitoring different aspects of supercomputer behavior: the efficiency of using application packages, the operation of the queue system, the load and availability of service servers, the presence of global performance issues in user applications, and the peculiarities of using separate partitions of the supercomputer. The developed rules formed the basis of the software solution that was implemented and evaluated on the Petaflop-level Lomonosov-2 supercomputer.



中文翻译:

大型超级计算机系统的自动化工作负载分析

摘要

现代超级计算机的架构极其复杂,因此监控和维护其运行效率极其困难。即使可以收集有关所有重要超级计算机组件运行的必要数据,如何不淹没在这“信息海洋”中而不会错过危急情况的发生?这需要工作负载分析过程的自动化。一个可能的解决方案是创建一组规则,自动检测并通知超级计算机管理员有关某些紧急情况的发生或超级计算机运行效率显着下降的情况。这种方法可以快速确定管理员最感兴趣和最重要的情况,以及正确确定整个工作负载分析过程的优先级。本文描述了制定一套 19 条规则的过程,每条规则确定了一种检测某种危急情况发生的方法,提供了对其发生的可能原因的描述,并详细说明了已经发生的情况的危急程度。出现。这些规则允许监控超级计算机行为的不同方面:使用应用程序包的效率、队列系统的运行、服务服务器的负载和可用性、用户应用程序中全局性能问题的存在以及使用单独分区的特性。超级计算机。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。本文描述了制定一套 19 条规则的过程,每条规则确定了一种检测某种危急情况发生的方法,提供了对其发生的可能原因的描述,并详细说明了已经发生的情况的危急程度。出现。这些规则允许监控超级计算机行为的不同方面:使用应用程序包的效率、队列系统的运行、服务服务器的负载和可用性、用户应用程序中全局性能问题的存在以及使用单独分区的特性。超级计算机。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。本文描述了制定一套 19 条规则的过程,每条规则确定了一种检测某种危急情况发生的方法,提供了对其发生的可能原因的描述,并详细说明了已经发生的情况的危急程度。出现。这些规则允许监控超级计算机行为的不同方面:使用应用程序包的效率、队列系统的运行、服务服务器的负载和可用性、用户应用程序中全局性能问题的存在以及使用单独分区的特性。超级计算机。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。每一个都确定了一种检测某种危急情况发生的方法,提供了对其发生的可能原因的描述,并且还指定了已经出现的情况的危急程度。这些规则允许监控超级计算机行为的不同方面:使用应用程序包的效率、队列系统的运行、服务服务器的负载和可用性、用户应用程序中全局性能问题的存在以及使用单独分区的特性。超级计算机。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。每一个都确定了一种检测某种危急情况发生的方法,提供了对其发生的可能原因的描述,并且还指定了已经出现的情况的危急程度。这些规则允许监控超级计算机行为的不同方面:使用应用程序包的效率、队列系统的运行、服务服务器的负载和可用性、用户应用程序中全局性能问题的存在以及使用单独分区的特性。超级计算机。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。并且还指定了已经出现的情况的危急程度。这些规则允许监控超级计算机行为的不同方面:使用应用程序包的效率、队列系统的运行、服务服务器的负载和可用性、用户应用程序中全局性能问题的存在以及使用单独分区的特性。超级计算机。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。并且还指定了已经出现的情况的危急程度。这些规则允许监控超级计算机行为的不同方面:使用应用程序包的效率、队列系统的运行、服务服务器的负载和可用性、用户应用程序中全局性能问题的存在以及使用单独分区的特性。超级计算机。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。以及使用超级计算机的单独分区的特性。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。以及使用超级计算机的单独分区的特性。开发的规则构成了在 Petaflop 级 Lomonosov-2 超级计算机上实施和评估的软件解决方案的基础。

更新日期:2021-08-10
down
wechat
bug