当前位置: X-MOL 学术arXiv.cs.PF › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
在A64FX上对SpMV和Lattice QCD进行ECM建模和性能调整
arXiv - CS - Performance Pub Date : 2021-03-04 , DOI: arxiv-2103.03013
Christie Alappat, Nils Meyer, Jan Laukemann, Thomas Gruber, Georg Hager, Gerhard Wellein, Tilo Wettig

A64FX CPU可以说是迄今为止功能最强大的基于Arm的处理器设计。尽管它是传统的基于缓存的多核处理器,但其峰值性能和内存带宽可与加速器设备相媲美。对于希望利用其全部潜力的开发人员而言,对它的性能特征有一个很好的了解是至关重要的。我们详细介绍了富士通FX1000超级计算机中使用的A64FX的体系结构,该分析可以构建稳态循环的执行缓存-内存(ECM)性能模型。在此过程中,我们确定了指向可行的通用优化策略的体系结构特性。在使用简单的流循环验证模型之后,我们将获得的见解应用于量子色动力学(QCD)的稀疏矩阵矢量乘法(SpMV)和域壁(DW)内核。对于SpMV,我们将说明为什么CRS矩阵存储格式在该体系结构上不是一个好的实用选择,以及SELL- $ C $-$ \ sigma $格式如何实现带宽饱和。对于DW内核我们提供了一个高速缓存重用分析和显示数据布局的复杂阵列合适的选择如何能够实现内存带宽饱和度在这种情况下也是如此。通过与最新的高端英特尔Cascade Lake AP和Nvidia V100系统进行比较,可以看到A64FX的功能。我们还使用Fugaku系统提供的调节旋钮来探索功率优化的潜力,



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug