当前位置: X-MOL 学术arXiv.cs.PF › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Utilizing Ensemble Learning for Performance and Power Modeling and Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks
arXiv - CS - Performance Pub Date : 2020-11-12 , DOI: arxiv-2011.06654
Xingfu Wu and Valerie Taylor

Machine learning (ML) continues to grow in importance across nearly all domains and is a natural tool in modeling to learn from data. Often a tradeoff exists between a model's ability to minimize bias and variance. In this paper, we utilize ensemble learning to combine linear, nonlinear, and tree-/rule-based ML methods to cope with the bias-variance tradeoff and result in more accurate models. Hardware performance counter values are correlated with properties of applications that impact performance and power on the underlying system. We use the datasets collected for two parallel cancer deep learning CANDLE benchmarks, NT3 (weak scaling) and P1B2 (strong scaling), to build performance and power models based on hardware performance counters using single-object and multiple-objects ensemble learning to identify the most important counters for improvement. Based on the insights from these models, we improve the performance and energy of P1B2 and NT3 by optimizing the deep learning environments TensorFlow, Keras, Horovod, and Python under the huge page size of 8 MB on the Cray XC40 Theta at Argonne National Laboratory. Experimental results show that ensemble learning not only produces more accurate models but also provides more robust performance counter ranking. We achieve up to 61.15% performance improvement and up to 62.58% energy saving for P1B2 and up to 55.81% performance improvement and up to 52.60% energy saving for NT3 on up to 24,576 cores.

中文翻译:

利用集成学习进行性能和功率建模以及并行癌症深度学习 CANDLE 基准的改进

机器学习 (ML) 在几乎所有领域的重要性都在不断增长,并且是建模以从数据中学习的自然工具。通常在模型最小化偏差和方差的能力之间存在权衡。在本文中,我们利用集成学习结合线性、非线性和基于树/规则的 ML 方法来应对偏差-方差权衡并产生更准确的模型。硬件性能计数器值与影响底层系统性能和功率的应用程序属性相关。我们使用为两个并行癌症深度学习 CANDLE 基准收集的数据集,NT3(弱缩放)和 P1B2(强缩放),使用单对象和多对象集成学习基于硬件性能计数器构建性能和功耗模型,以确定最重要的计数器进行改进。基于这些模型的见解,我们通过在 Argonne 国家实验室的 Cray XC40 Theta 上在 8 MB 的大页面大小下优化深度学习环境 TensorFlow、Keras、Horovod 和 Python 来提高 P1B2 和 NT3 的性能和能量。实验结果表明,集成学习不仅可以产生更准确的模型,还可以提供更稳健的性能计数器排名。我们在多达 24,576 个内核上实现了 P1B2 高达 61.15% 的性能提升和高达 62.58% 的节能,以及高达 55.81% 的 NT3 性能提升和高达 52.60% 的节能。我们通过在 Argonne 国家实验室的 Cray XC40 Theta 上在 8 MB 的大页面大小下优化深度学习环境 TensorFlow、Keras、Horovod 和 Python 来提高 P1B2 和 NT3 的性能和能量。实验结果表明,集成学习不仅可以产生更准确的模型,还可以提供更稳健的性能计数器排名。我们在多达 24,576 个内核上实现了 P1B2 高达 61.15% 的性能提升和高达 62.58% 的节能,以及高达 55.81% 的 NT3 性能提升和高达 52.60% 的节能。我们通过在 Argonne 国家实验室的 Cray XC40 Theta 上在 8 MB 的大页面大小下优化深度学习环境 TensorFlow、Keras、Horovod 和 Python 来提高 P1B2 和 NT3 的性能和能量。实验结果表明,集成学习不仅可以产生更准确的模型,还可以提供更稳健的性能计数器排名。我们在多达 24,576 个内核上实现了 P1B2 高达 61.15% 的性能提升和高达 62.58% 的节能,以及高达 55.81% 的 NT3 性能提升和高达 52.60% 的节能。实验结果表明,集成学习不仅可以产生更准确的模型,还可以提供更稳健的性能计数器排名。我们在多达 24,576 个内核上实现了 P1B2 高达 61.15% 的性能提升和高达 62.58% 的节能,以及高达 55.81% 的 NT3 性能提升和高达 52.60% 的节能。实验结果表明,集成学习不仅可以产生更准确的模型,还可以提供更稳健的性能计数器排名。我们在多达 24,576 个内核上实现了 P1B2 高达 61.15% 的性能提升和高达 62.58% 的节能,以及高达 55.81% 的 NT3 性能提升和高达 52.60% 的节能。
更新日期:2020-11-16
down
wechat
bug