当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Ramanujan Bipartite Graph Products for Efficient Block Sparse Neural Networks
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2020-06-24 , DOI: arxiv-2006.13486
Dharma Teja Vooturi, Girish Varma, Kishore Kothapalli

Sparse neural networks are shown to give accurate predictions competitive to denser versions, while also minimizing the number of arithmetic operations performed. However current hardware like GPU's can only exploit structured sparsity patterns for better efficiency. Hence the run time of a sparse neural network may not correspond to the arithmetic operations required. In this work, we propose RBGP( Ramanujan Bipartite Graph Product) framework for generating structured multi level block sparse neural networks by using the theory of Graph products. We also propose to use products of Ramanujan graphs which gives the best connectivity for a given level of sparsity. This essentially ensures that the i.) the networks has the structured block sparsity for which runtime efficient algorithms exists ii.) the model gives high prediction accuracy, due to the better expressive power derived from the connectivity of the graph iii.) the graph data structure has a succinct representation that can be stored efficiently in memory. We use our framework to design a specific connectivity pattern called RBGP4 which makes efficient use of the memory hierarchy available on GPU. We benchmark our approach by experimenting on image classification task over CIFAR dataset using VGG19 and WideResnet-40-4 networks and achieve 5-9x and 2-5x runtime gains over unstructured and block sparsity patterns respectively, while achieving the same level of accuracy.

中文翻译:

用于高效块稀疏神经网络的拉马努金二部图产品

稀疏神经网络被证明可以提供与密集版本相比具有竞争力的准确预测,同时还最大限度地减少了所执行的算术运算次数。然而,像 GPU 这样的当前硬件只能利用结构化稀疏模式来提高效率。因此,稀疏神经网络的运行时间可能与所需的算术运算不符。在这项工作中,我们提出了 RBGP(拉马努金二部图积)框架,用于利用图积理论生成结构化的多级块稀疏神经网络。我们还建议使用拉马努金图的乘积,它为给定的稀疏度提供最佳连接。这基本上确保了 i.) 网络具有结构化块稀疏性,因此存在运行时高效算法 ii.) 该模型提供了高预测精度,由于图 iii.) 的连通性具有更好的表达能力,图数据结构具有简洁的表示,可以有效地存储在内存中。我们使用我们的框架设计了一种称为 RBGP4 的特定连接模式,它可以有效利用 GPU 上可用的内存层次结构。我们通过使用 VGG19 和 WideResnet-40-4 网络对 CIFAR 数据集上的图像分类任务进行试验来对我们的方法进行基准测试,并分别比非结构化和块稀疏模式实现 5-9 倍和 2-5 倍的运行时间增益,同时实现相同水平的精度。我们使用我们的框架设计了一种称为 RBGP4 的特定连接模式,它可以有效利用 GPU 上可用的内存层次结构。我们通过使用 VGG19 和 WideResnet-40-4 网络对 CIFAR 数据集上的图像分类任务进行试验来对我们的方法进行基准测试,并分别比非结构化和块稀疏模式实现 5-9 倍和 2-5 倍的运行时间增益,同时实现相同水平的精度。我们使用我们的框架设计了一种称为 RBGP4 的特定连接模式,它可以有效利用 GPU 上可用的内存层次结构。我们通过使用 VGG19 和 WideResnet-40-4 网络对 CIFAR 数据集上的图像分类任务进行试验来对我们的方法进行基准测试,并分别比非结构化和块稀疏模式实现 5-9 倍和 2-5 倍的运行时间增益,同时实现相同水平的精度。
更新日期:2020-07-03
down
wechat
bug