DRACO: Co-Optimizing Hardware Utilization, and Performance of DNNs on Systolic Accelerator,arXiv - CS - Hardware Architecture

当前位置： X-MOL 学术 › arXiv.cs.AR › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

DRACO: Co-Optimizing Hardware Utilization, and Performance of DNNs on Systolic Accelerator
arXiv - CS - Hardware Architecture Pub Date : 2020-06-26 , DOI: arxiv-2006.15103
Nandan Kumar Jha, Shreyas Ravishankar, Sparsh Mittal, Arvind Kaushik, Dipan Mandal, Mahesh Chandra

The number of processing elements (PEs) in a fixed-sized systolic accelerator is well matched for large and compute-bound DNNs; whereas, memory-bound DNNs suffer from PE underutilization and fail to achieve peak performance and energy efficiency. To mitigate this, specialized dataflow and/or micro-architectural techniques have been proposed. However, due to the longer development cycle and the rapid pace of evolution in the deep learning fields, these hardware-based solutions can be obsolete and ineffective in dealing with PE underutilization for state-of-the-art DNNs. In this work, we address the challenge of PE underutilization at the algorithm front and propose data reuse aware co-optimization (DRACO). This improves the PE utilization of memory-bound DNNs without any additional need for dataflow/micro-architecture modifications. Furthermore, unlike the previous co-optimization methods, DRACO not only maximizes performance and energy efficiency but also improves the predictive performance of DNNs. To the best of our knowledge, DRACO is the first work that resolves the resource underutilization challenge at the algorithm level and demonstrates a trade-off between computational efficiency, PE utilization, and predictive performance of DNN. Compared to the state-of-the-art row stationary dataflow, DRACO achieves 41.8% and 42.6% improvement in average PE utilization and inference latency (respectively) with negligible loss in predictive performance in MobileNetV1 on a $64\times64$ systolic array. DRACO provides seminal insights for utilization-aware DNN design methodologies that can fully leverage the computation power of systolic array-based hardware accelerators.

中文翻译：

DRACO：在收缩加速器上协同优化硬件利用率和 DNN 的性能

固定大小的脉动加速器中处理元件 (PE) 的数量与大型和计算密集型 DNN 非常匹配；而受内存限制的 DNN 受到 PE 未充分利用的影响，无法实现峰值性能和能源效率。为了缓解这种情况，已经提出了专门的数据流和/或微架构技术。然而，由于深度学习领域较长的开发周期和快速发展的步伐，这些基于硬件的解决方案在处理最先进的 DNN 的 PE 利用率不足时可能已经过时且无效。在这项工作中，我们解决了算法前端 PE 未充分利用的挑战，并提出了数据重用感知协同优化 (DRACO)。这提高了内存绑定 DNN 的 PE 利用率，而无需任何额外的数据流/微架构修改。此外，与之前的协同优化方法不同，DRACO 不仅最大限度地提高了性能和能源效率，而且还提高了 DNN 的预测性能。据我们所知，DRACO 是第一个在算法级别解决资源利用不足挑战的工作，并展示了 DNN 的计算效率、PE 利用率和预测性能之间的权衡。与最先进的行静态数据流相比，DRACO 在平均 PE 利用率和推理延迟（分别）方面分别提高了 41.8% 和 42.6%，而 MobileNetV1 在 $64\times64$ 收缩阵列上的预测性能损失可以忽略不计。DRACO 为能够充分利用基于脉动阵列的硬件加速器的计算能力的利用率感知 DNN 设计方法提供了开创性的见解。DRACO 不仅最大限度地提高了性能和能源效率，而且还提高了 DNN 的预测性能。据我们所知，DRACO 是第一个在算法级别解决资源利用不足挑战的工作，并展示了 DNN 的计算效率、PE 利用率和预测性能之间的权衡。与最先进的行静态数据流相比，DRACO 在平均 PE 利用率和推理延迟（分别）方面分别提高了 41.8% 和 42.6%，而 MobileNetV1 在 $64\times64$ 收缩阵列上的预测性能损失可以忽略不计。DRACO 为能够充分利用基于脉动阵列的硬件加速器的计算能力的利用率感知 DNN 设计方法提供了开创性的见解。DRACO 不仅最大限度地提高了性能和能源效率，而且还提高了 DNN 的预测性能。据我们所知，DRACO 是第一个在算法级别解决资源利用不足挑战的工作，并展示了 DNN 的计算效率、PE 利用率和预测性能之间的权衡。与最先进的行静态数据流相比，DRACO 在平均 PE 利用率和推理延迟（分别）方面分别提高了 41.8% 和 42.6%，而 MobileNetV1 在 $64\times64$ 收缩阵列上的预测性能损失可以忽略不计。DRACO 为能够充分利用基于脉动阵列的硬件加速器的计算能力的利用率感知 DNN 设计方法提供了开创性的见解。DRACO 是第一个在算法层面解决资源利用不足挑战的工作，并展示了 DNN 的计算效率、PE 利用率和预测性能之间的权衡。与最先进的行静态数据流相比，DRACO 在平均 PE 利用率和推理延迟（分别）方面分别提高了 41.8% 和 42.6%，而 MobileNetV1 在 $64\times64$ 收缩阵列上的预测性能损失可以忽略不计。DRACO 为能够充分利用基于脉动阵列的硬件加速器的计算能力的利用率感知 DNN 设计方法提供了开创性的见解。DRACO 是第一个在算法层面解决资源利用不足挑战的工作，并展示了 DNN 的计算效率、PE 利用率和预测性能之间的权衡。与最先进的行静态数据流相比，DRACO 在平均 PE 利用率和推理延迟（分别）方面分别提高了 41.8% 和 42.6%，而 MobileNetV1 在 $64\times64$ 收缩阵列上的预测性能损失可以忽略不计。DRACO 为能够充分利用基于脉动阵列的硬件加速器的计算能力的利用率感知 DNN 设计方法提供了开创性的见解。与最先进的行静态数据流相比，DRACO 在平均 PE 利用率和推理延迟（分别）方面分别提高了 41.8% 和 42.6%，而 MobileNetV1 在 $64\times64$ 收缩阵列上的预测性能损失可以忽略不计。DRACO 为能够充分利用基于脉动阵列的硬件加速器的计算能力的利用率感知 DNN 设计方法提供了开创性的见解。与最先进的行静态数据流相比，DRACO 在平均 PE 利用率和推理延迟（分别）方面分别提高了 41.8% 和 42.6%，而 MobileNetV1 在 $64\times64$ 收缩阵列上的预测性能损失可以忽略不计。DRACO 为能够充分利用基于脉动阵列的硬件加速器的计算能力的利用率感知 DNN 设计方法提供了开创性的见解。

更新日期：2020-06-29

点击分享查看原文

点击收藏

阅读更多本刊最新论文