当前位置: X-MOL 学术arXiv.cs.AR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
An Electro-Photonic System for Accelerating Deep Neural Networks
arXiv - CS - Hardware Architecture Pub Date : 2021-09-02 , DOI: arxiv-2109.01126
Cansu Demirkiran, Furkan Eris, Gongyu Wang, Jonathan Elmhurst, Nick Moore, Nicholas C. Harris, Ayon Basumallik, Vijay Janapa Reddi, Ajay Joshi, Darius Bunandar

The number of parameters in deep neural networks (DNNs) is scaling at about 5$\times$ the rate of Moore's Law. To sustain the pace of growth of the DNNs, new technologies and computing architectures are needed. Photonic computing systems are promising avenues, since they can perform the dominant general matrix-matrix multiplication (GEMM) operations in DNNs at a higher throughput than their electrical counterpart. However, purely photonic systems face several challenges including a lack of photonic memory, the need for conversion circuits, and the accumulation of noise. In this paper, we propose a hybrid electro-photonic system realizing the best of both worlds to accelerate DNNs. In contrast to prior work in photonic and electronic accelerators, we adopt a system-level perspective. Our electro-photonic system includes an electronic host processor and DRAM, and a custom electro-photonic hardware accelerator called ADEPT. The fused hardware accelerator leverages a photonic computing unit for performing highly-efficient GEMM operations and a digital electronic ASIC for storage and for performing non-GEMM operations. We also identify architectural optimization opportunities for improving the overall ADEPT's efficiency. We evaluate ADEPT using three state-of-the-art neural networks-ResNet-50, BERT-large, and RNN-T-to show its general applicability in accelerating today's DNNs. A head-to-head comparison of ADEPT with systolic array architectures shows that ADEPT can provide, on average, 7.19$\times$ higher inference throughput per watt.

中文翻译:

用于加速深度神经网络的电光子系统

深度神经网络 (DNN) 中的参数数量正在以摩尔定律速率的 5 倍左右扩展。为了保持 DNN 的增长速度,需要新技术和计算架构。光子计算系统是有前途的途径,因为它们可以在 DNN 中以比其电对应物更高的吞吐量执行占主导地位的通用矩阵乘法 (GEMM) 运算。然而,纯光子系统面临着几个挑战,包括缺乏光子存储器、需要转换电路以及噪声的积累。在本文中,我们提出了一种混合电光子系统,实现了两全其美的加速 DNN。与之前在光子和电子加速器方面的工作相比,我们采用了系统级的视角。我们的电光子系统包括一个电子主机处理器和 DRAM,以及一个名为 ADEPT 的定制电光子硬件加速器。融合硬件加速器利用光子计算单元来执行高效的 GEMM 操作,并利用数字电子 ASIC 进行存储和执行非 GEMM 操作。我们还确定了用于提高 ADEPT 整体效率的架构优化机会。我们使用三种最先进的神经网络 ResNet-50、BERT-large 和 RNN-T 来评估 ADEPT,以展示其在加速当今 DNN 方面的普遍适用性。ADEPT 与脉动阵列架构的直接比较表明,ADEPT 可以提供平均每瓦特高 7.19 倍的推理吞吐量。融合硬件加速器利用光子计算单元来执行高效的 GEMM 操作,并利用数字电子 ASIC 进行存储和执行非 GEMM 操作。我们还确定了用于提高 ADEPT 整体效率的架构优化机会。我们使用三种最先进的神经网络 ResNet-50、BERT-large 和 RNN-T 来评估 ADEPT,以展示其在加速当今 DNN 方面的普遍适用性。ADEPT 与脉动阵列架构的直接比较表明,ADEPT 可以提供平均每瓦特高 7.19 倍的推理吞吐量。融合硬件加速器利用光子计算单元来执行高效的 GEMM 操作,并利用数字电子 ASIC 进行存储和执行非 GEMM 操作。我们还确定了用于提高 ADEPT 整体效率的架构优化机会。我们使用三种最先进的神经网络 ResNet-50、BERT-large 和 RNN-T 来评估 ADEPT,以展示其在加速当今 DNN 方面的普遍适用性。ADEPT 与脉动阵列架构的直接比较表明,ADEPT 可以提供平均每瓦特高 7.19 倍的推理吞吐量。我们还确定了用于提高 ADEPT 整体效率的架构优化机会。我们使用三种最先进的神经网络 ResNet-50、BERT-large 和 RNN-T 来评估 ADEPT,以展示其在加速当今 DNN 方面的普遍适用性。ADEPT 与脉动阵列架构的直接比较表明,ADEPT 可以提供平均每瓦特高 7.19 倍的推理吞吐量。我们还确定了用于提高 ADEPT 整体效率的架构优化机会。我们使用三种最先进的神经网络 ResNet-50、BERT-large 和 RNN-T 来评估 ADEPT,以展示其在加速当今 DNN 方面的普遍适用性。ADEPT 与脉动阵列架构的直接比较表明,ADEPT 可以提供平均每瓦特高 7.19 倍的推理吞吐量。
更新日期:2021-09-03
down
wechat
bug