当前位置: X-MOL 学术Cluster Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A simple and efficient storage format for SIMD-accelerated SpMV
Cluster Computing ( IF 3.6 ) Pub Date : 2021-06-20 , DOI: 10.1007/s10586-021-03340-1
Haodong Bian , Jianqiang Huang , Runting Dong , Yuluo Guo , Lingbin Liu , Dongqiang Huang , Xiaoying Wang

SpMV (Sparse matrix-vector multiplication) is an essential component in scientific computing and has attracted the attention of researchers in related fields at home and abroad. With the continuous expansion of matrix data, the efficient parallel SpMV algorithm has become a research hotspot for research experts in related fields. The sparse matrix compression format as a critical point to improve computing performance can effectively save storage space and efficiently cooperate with the advantages of the processor system structure to give full play to performance. This paper proposes a new sparse matrix storage format CSR2 (Compressed Sparse Row 2). It is a new single format and suitable for processor platforms with SIMD (Single Instruction Multiple Data) vectorizations. The format operation of CSR2 is easy to implement with a low overhead of conversion. We compared the SpMV algorithm based on CSR2 with the most advanced single format CSR5 (Compressed Sparse Row 5) and Intel MKL (Intel Math Kernel Library) on the mainstream high-performance processor Intel Xeon E5-2670 v3 CPU. We choose 48 sets of matrices to be used as a benchmark suite. Experimental results show that CSR2 has a remarkable performance improvement compared with CSR5 and MKL. Compared to CSR5, CSR2 can achieve an average acceleration of 1.401 × (up to 1.861 ×). Compared to MKL, CSR2 can achieve an average acceleration of 1.261 × (up to 5.921 ×). In reality, for applications with multiple iterations, using our CSR2 can bring low-overhead format conversion and high-throughput computing performance.



中文翻译:

一种简单高效的 SIMD 加速 SpMV 存储格式

SpMV(稀疏矩阵向量乘法)是科学计算中必不可少的组成部分,引起了国内外相关领域研究人员的关注。随着矩阵数据的不断扩展,高效的并行SpMV算法成为相关领域研究专家的研究热点。稀疏矩阵压缩格式作为提高计算性能的关键点,可以有效节省存储空间,高效配合处理器体系结构的优势,充分发挥性能。本文提出了一种新的稀疏矩阵存储格式CSR2(Compressed Sparse Row 2)。它是一种新的单一格式,适用于具有 SIMD(单指令多数据)矢量化的处理器平台。CSR2的格式操作易于实现,转换开销低。我们在主流高性能处理器 Intel Xeon E5-2670 v3 CPU 上比较了基于 CSR2 的 SpMV 算法与最先进的单一格式 CSR5(压缩稀疏行 5)和 Intel MKL(Intel Math Kernel Library)。我们选择 48 组矩阵作为基准套件。实验结果表明,与CSR5和MKL相比,CSR2具有显着的性能提升。相比CSR5,CSR2可以实现1.401×(最高1.861×)的平均加速度。与MKL相比,CSR2可以实现1.261×(最高5.921×)的平均加速度。实际上,对于多次迭代的应用,使用我们的CSR2可以带来低开销的格式转换和高吞吐的计算性能。我们在主流高性能处理器 Intel Xeon E5-2670 v3 CPU 上比较了基于 CSR2 的 SpMV 算法与最先进的单一格式 CSR5(压缩稀疏行 5)和 Intel MKL(Intel Math Kernel Library)。我们选择 48 组矩阵作为基准套件。实验结果表明,与CSR5和MKL相比,CSR2具有显着的性能提升。相比CSR5,CSR2可以实现1.401×(最高1.861×)的平均加速度。与MKL相比,CSR2可以实现1.261×(最高5.921×)的平均加速度。实际上,对于多次迭代的应用,使用我们的CSR2可以带来低开销的格式转换和高吞吐的计算性能。我们在主流高性能处理器 Intel Xeon E5-2670 v3 CPU 上比较了基于 CSR2 的 SpMV 算法与最先进的单一格式 CSR5(压缩稀疏行 5)和 Intel MKL(Intel Math Kernel Library)。我们选择 48 组矩阵用作基准套件。实验结果表明,与CSR5和MKL相比,CSR2具有显着的性能提升。相比CSR5,CSR2可以实现1.401×(最高1.861×)的平均加速度。与MKL相比,CSR2可以实现1.261×(最高5.921×)的平均加速度。实际上,对于多次迭代的应用,使用我们的CSR2可以带来低开销的格式转换和高吞吐的计算性能。

更新日期:2021-06-20
down
wechat
bug