当前位置: X-MOL 学术arXiv.cs.AR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Copernicus: Characterizing the Performance Implications of Compression Formats Used in Sparse Workloads
arXiv - CS - Hardware Architecture Pub Date : 2020-11-22 , DOI: arxiv-2011.10932
Bahar Asgari, Ramyad Hadidi, Joshua Dierberger, Charlotte Steinichen, Hyesoon Kim

Sparse matrices are the key ingredients of several application domains, from scientific computation to machine learning. The primary challenge with sparse matrices has been efficiently storing and transferring data, for which many sparse formats have been proposed to significantly eliminate zero entries. Such formats, essentially designed to optimize memory footprint, may not be as successful in performing faster processing. In other words, although they allow faster data transfer and improve memory bandwidth utilization -- the classic challenge of sparse problems -- their decompression mechanism can potentially create a computation bottleneck. Not only is this challenge not resolved, but also it becomes more serious with the advent of domain-specific architectures (DSAs), as they intend to more aggressively improve performance. The performance implications of using various formats along with DSAs, however, has not been extensively studied by prior work. To fill this gap of knowledge, we characterize the impact of using seven frequently used sparse formats on performance, based on a DSA for sparse matrix-vector multiplication (SpMV), implemented on an FPGA using high-level synthesis (HLS) tools, a growing and popular method for developing DSAs. Seeking a fair comparison, we tailor and optimize the HLS implementation of decompression for each format. We thoroughly explore diverse metrics, including decompression overhead, latency, balance ratio, throughput, memory bandwidth utilization, resource utilization, and power consumption, on a variety of real-world and synthetic sparse workloads.

中文翻译:

哥白尼:表征稀疏工作负载中使用的压缩格式的性能含义

从科学计算到机器学习,稀疏矩阵是多个应用领域的关键要素。稀疏矩阵的主要挑战是有效地存储和传输数据,为此提出了许多稀疏格式以显着消除零项。本质上旨在优化内存占用的此类格式可能无法成功执行更快的处理。换句话说,尽管它们允许更快的数据传输并提高内存带宽利用率(稀疏问题的经典挑战),但它们的解压缩机制可能会造成计算瓶颈。这种挑战不仅没有解决,而且随着领域特定体系结构(DSA)的出现,它也变得更加严重,因为它们旨在更积极地提高性能。但是,以前的工作尚未广泛研究将各种格式与DSA一起使用对性能的影响。为了填补这一知识空白,我们基于在稀疏矩阵向量乘法(SpMV)上使用DSA的DSA(使用高级综合(HLS)工具在FPGA上实现),描述了使用七种常用稀疏格式对性能的影响。开发DSA的日益流行的方法。为了寻求公平的比较,我们为每种格式定制并优化了HLS解压缩实现。我们针对各种现实和合成的稀疏工作负载,探索各种指标,包括减压开销,延迟,平衡比,吞吐量,内存带宽利用率,资源利用率和功耗。以前的工作尚未进行广泛的研究。为了填补这一知识空白,我们基于在稀疏矩阵向量乘法(SpMV)上使用DSA的DSA(使用高级综合(HLS)工具在FPGA上实现),描述了使用七种常用稀疏格式对性能的影响。开发DSA的日益流行的方法。为了寻求公平的比较,我们为每种格式定制并优化了HLS解压缩实现。我们针对各种现实和合成的稀疏工作负载,探索各种指标,包括减压开销,延迟,平衡比,吞吐量,内存带宽利用率,资源利用率和功耗。以前的工作尚未进行广泛的研究。为了填补这一知识空白,我们基于在稀疏矩阵矢量乘法(SpMV)上使用DSA的DSA(使用高级综合(HLS)工具在FPGA上实现),描述了使用7种常用稀疏格式对性能的影响。开发DSA的日益流行的方法。为了寻求公平的比较,我们为每种格式定制并优化了HLS解压缩实现。我们针对各种现实和合成的稀疏工作负载,探索各种指标,包括减压开销,延迟,平衡比,吞吐量,内存带宽利用率,资源利用率和功耗。基于用于稀疏矩阵矢量乘法(SpMV)的DSA,它是在FPGA上使用高级综合(HLS)工具实现的,这是一种正在发展且流行的DSA开发方法。为了寻求公平的比较,我们为每种格式定制并优化了HLS解压缩实现。我们针对各种现实和合成的稀疏工作负载,探索各种指标,包括减压开销,延迟,平衡比,吞吐量,内存带宽利用率,资源利用率和功耗。它基于用于稀疏矩阵矢量乘法(SpMV)的DSA,并在FPGA上使用高级综合(HLS)工具实现,这是一种正在发展且流行的DSA开发方法。为了寻求公平的比较,我们为每种格式定制并优化了HLS解压缩实现。我们针对各种现实和合成的稀疏工作负载,探索各种指标,包括减压开销,延迟,平衡比,吞吐量,内存带宽利用率,资源利用率和功耗。
更新日期:2020-11-25
down
wechat
bug