当前位置:
X-MOL 学术
›
IEEE Trans. Parallel Distrib. Syst.
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Cartesian Partitioning Models for 2D and 3D Parallel SpGEMM Algorithms
IEEE Transactions on Parallel and Distributed Systems ( IF 5.3 ) Pub Date : 2020-12-01 , DOI: 10.1109/tpds.2020.3000708 Gunduz Vehbi Demirci , Cevdet Aykanat
IEEE Transactions on Parallel and Distributed Systems ( IF 5.3 ) Pub Date : 2020-12-01 , DOI: 10.1109/tpds.2020.3000708 Gunduz Vehbi Demirci , Cevdet Aykanat
The focus is distributed-memory parallelization of sparse-general-matrix-multiplication (SpGEMM). Parallel SpGEMM algorithms are classified under one-dimensional (1D), 2D, and 3D categories denoting the number of dimensions by which the 3D sparse workcube representing the iteration space of SpGEMM is partitioned. Recently proposed successful 2D- and 3D-parallel SpGEMM algorithms benefit from upper bounds on communication overheads enforced by 2D and 3D cartesian partitioning of the workcube on 2D and 3D virtual processor grids, respectively. However, these methods are based on random cartesian partitioning and do not utilize sparsity patterns of SpGEMM instances for reducing the communication overheads. We propose hypergraph models for 2D and 3D cartesian partitioning of the workcube for further reducing the communication overheads of these 2D- and 3D- parallel SpGEMM algorithms. The proposed models utilize two- and three-phase partitioning that exploit multi-constraint hypergraph partitioning formulations. Extensive experimentation performed on 20 SpGEMM instances by using upto 900 processors demonstrate that proposed partitioning models significantly improve the scalability of 2D and 3D algorithms. For example, in 2D-parallel SpGEMM algorithm on 900 processors, the proposed partitioning model respectively achieves 85 and 42 percent decrease in total volume and total number of messages, leading to 1.63 times higher speedup compared to random partitioning, on average.
中文翻译:
2D 和 3D 并行 SpGEMM 算法的笛卡尔分区模型
重点是稀疏通用矩阵乘法 (SpGEMM) 的分布式内存并行化。并行 SpGEMM 算法分为一维 (1D)、2D 和 3D 类别,表示划分表示 SpGEMM 迭代空间的 3D 稀疏工作立方体的维数。最近提出的成功的 2D 和 3D 并行 SpGEMM 算法受益于分别由 2D 和 3D 虚拟处理器网格上的工作立方体的 2D 和 3D 笛卡尔分区强制执行的通信开销的上限。然而,这些方法基于随机笛卡尔分区并且不利用 SpGEMM 实例的稀疏模式来减少通信开销。我们提出了用于工作立方体的 2D 和 3D 笛卡尔分区的超图模型,以进一步减少这些 2D 和 3D 并行 SpGEMM 算法的通信开销。所提出的模型利用利用多约束超图分区公式的两相和三相分区。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。所提出的模型利用利用多约束超图分区公式的两相和三相分区。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。所提出的模型利用利用多约束超图分区公式的两相和三相分区。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。
更新日期:2020-12-01
中文翻译:
2D 和 3D 并行 SpGEMM 算法的笛卡尔分区模型
重点是稀疏通用矩阵乘法 (SpGEMM) 的分布式内存并行化。并行 SpGEMM 算法分为一维 (1D)、2D 和 3D 类别,表示划分表示 SpGEMM 迭代空间的 3D 稀疏工作立方体的维数。最近提出的成功的 2D 和 3D 并行 SpGEMM 算法受益于分别由 2D 和 3D 虚拟处理器网格上的工作立方体的 2D 和 3D 笛卡尔分区强制执行的通信开销的上限。然而,这些方法基于随机笛卡尔分区并且不利用 SpGEMM 实例的稀疏模式来减少通信开销。我们提出了用于工作立方体的 2D 和 3D 笛卡尔分区的超图模型,以进一步减少这些 2D 和 3D 并行 SpGEMM 算法的通信开销。所提出的模型利用利用多约束超图分区公式的两相和三相分区。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。所提出的模型利用利用多约束超图分区公式的两相和三相分区。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。所提出的模型利用利用多约束超图分区公式的两相和三相分区。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。使用多达 900 个处理器在 20 个 SpGEMM 实例上进行的大量实验表明,所提出的分区模型显着提高了 2D 和 3D 算法的可扩展性。例如,在 900 个处理器上的 2D 并行 SpGEMM 算法中,所提出的分区模型分别使消息总量和消息总数减少了 85% 和 42%,与随机分区相比,平均速度提高了 1.63 倍。