当前位置: X-MOL 学术IEEE Trans. Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
COUNTDOWN: a Run-time Library for Performance-Neutral Energy Saving in MPI Applications
IEEE Transactions on Computers ( IF 3.7 ) Pub Date : 2020-01-01 , DOI: 10.1109/tc.2020.2995269
Daniele Cesarini , Andrea Bartolini , Pietro Bonfa , Carlo Cavazzoni , Luca Benini

Power and energy consumption is becoming key challenges to deploy the first exascale supercomputer successfully. Large-scale HPC applications waste a significant amount of power in communication and synchronization-related idle times. However, due to the time scale at which communication happens, transitioning in low power states during communication's idle times may introduce unacceptable overhead in applications' execution time. In this paper, we present COUNTDOWN, a runtime library, supported by a methodology and analysis tool for identifying and automatically reducing the power consumption of the computing elements during communication and synchronization. COUNTDOWN saves energy without imposing significant time-to-completion increase by lowering CPUs power consumption only during idle times for which power state transition overhead are negligible. This is done transparently to the user, without requiring labor-intensive and error-prone application code modifications, nor requiring recompilation of the application. We test our methodology in a production Tier-0 system. For the NAS benchmarks, COUNTDOWN saves between 6% and 50% energy, with a time-to-solution penalty lower than 5%. In a complete production --- Quantum ESPRESSO --- for a 3.5K cores run, COUNTDOWN saves 22.36% energy, with a performance penalty below 3%. Energy saving increases to 37% with a performance penalty of 6.38%, if the application is executed without communication tuning.

中文翻译:

COUNTDOWN:MPI 应用程序中性能中立节能的运行时库

功率和能源消耗正成为成功部署第一台百亿亿级超级计算机的关键挑战。大规模 HPC 应用程序在通信和同步相关的空闲时间浪费了大量的电力。然而,由于通信发生的时间尺度,在通信空闲时间转换到低功率状态可能会在应用程序的执行时间中引入不可接受的开销。在本文中,我们介绍了 COUNTDOWN,一个运行时库,由方法和分析工具支持,用于在通信和同步期间识别和自动降低计算元素的功耗。COUNTDOWN 通过仅在空闲时间降低 CPU 功耗来节省能源,而不会显着增加完成时间,而空闲时间的电源状态转换开销可以忽略不计。这对用户是透明的,不需要劳动密集型和容易出错的应用程序代码修改,也不需要重新编译应用程序。我们在生产 Tier-0 系统中测试我们的方法。对于 NAS 基准测试,COUNTDOWN 可节省 6% 到 50% 的能源,解决时间损失低于 5%。在一个完整的生产 --- Quantum ESPRESSO --- 运行 3.5K 内核时,COUNTDOWN 节省了 22.36% 的能源,性能损失低于 3%。如果应用程序在没有通信调整的情况下执行,则节能增加到 37%,性能损失为 6.38%。不需要劳动密集型和容易出错的应用程序代码修改,也不需要重新编译应用程序。我们在生产 Tier-0 系统中测试我们的方法。对于 NAS 基准测试,COUNTDOWN 可节省 6% 到 50% 的能源,解决时间损失低于 5%。在一个完整的生产 --- Quantum ESPRESSO --- 运行 3.5K 内核时,COUNTDOWN 节省了 22.36% 的能源,性能损失低于 3%。如果应用程序在没有通信调整的情况下执行,则节能增加到 37%,性能损失为 6.38%。不需要劳动密集型和容易出错的应用程序代码修改,也不需要重新编译应用程序。我们在生产 Tier-0 系统中测试我们的方法。对于 NAS 基准测试,COUNTDOWN 可节省 6% 到 50% 的能源,解决时间损失低于 5%。在一个完整的生产 --- Quantum ESPRESSO --- 运行 3.5K 内核时,COUNTDOWN 节省了 22.36% 的能源,性能损失低于 3%。如果应用程序在没有通信调整的情况下执行,则节能增加到 37%,性能损失为 6.38%。解决时间损失低于 5%。在一个完整的生产 --- Quantum ESPRESSO --- 运行 3.5K 内核时,COUNTDOWN 节省了 22.36% 的能源,性能损失低于 3%。如果应用程序在没有通信调整的情况下执行,则节能增加到 37%,性能损失为 6.38%。解决时间损失低于 5%。在一个完整的生产 --- Quantum ESPRESSO --- 运行 3.5K 内核时,COUNTDOWN 节省了 22.36% 的能源,性能损失低于 3%。如果应用程序在没有通信调整的情况下执行,则节能增加到 37%,性能损失为 6.38%。
更新日期:2020-01-01
down
wechat
bug