当前位置: X-MOL 学术IEEE Trans. Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
PERMCNN: Energy-efficient Convolutional Neural Network Hardware Architecture with Permuted Diagonal Structure
IEEE Transactions on Computers ( IF 3.6 ) Pub Date : 2021-02-01 , DOI: 10.1109/tc.2020.2981068
Chunhua Deng , Siyu Liao , Bo Yuan

In the emerging artificial intelligence (AI) era, efficient hardware accelerator design for deep neural networks (DNNs) is very important to enable real-time energy-efficient DNN model deployment. To this end, various DNN model compression approaches and the corresponding hardware architectures have been intensively investigated. Recently, PermDNN, as a permuted diagonal structure-imposing model compression approach, was proposed with promising classification performance and hardware performance. However, the existing PermDNN hardware architecture is specifically designed for fully-connected (FC) layer-contained DNN models; while its support for convolutional (CONV) layer is missing. To fill this gap, this article proposes PermCNN, an energy-efficient hardware architecture for permuted diagonal structured convolutional neural networks (CNNs). By fully utilizing the strong structured sparsity in the trained models as well as dedicatedly leveraging the dynamic activation sparsity, PermCNN delivers very high hardware performance for inference tasks on CNN models. A design example with 28 nm CMOS technology shows that, compared the to state-of-the-art CNN accelerator, PermCNN achieves 3.74× and 3.11× improvement on area and energy efficiency, respectively, on AlexNet workload, and 17.49× and 14.22× improvement on area and energy efficiency, respectively, on VGG model. After including energy consumption incurred by DRAM access, PermCNN achieves 2.60× and 9.62× overall energy consumption improvement on AlexNet and VGG workloads, respectively.

中文翻译:

PERMCNN:具有置换对角线结构的节能卷积神经网络硬件架构

在新兴的人工智能 (AI) 时代,针对深度神经网络 (DNN) 的高效硬件加速器设计对于实现实时节能 DNN 模型部署非常重要。为此,已经深入研究了各种 DNN 模型压缩方法和相应的硬件架构。最近,PermDNN 作为一种置换对角结构强加模型压缩方法被提出,具有良好的分类性能和硬件性能。但是,现有的 PermDNN 硬件架构是专门为包含全连接 (FC) 层的 DNN 模型而设计的;而它对卷积 (CONV) 层的支持缺失。为了填补这一空白,本文提出了 PermCNN,这是一种用于置换对角结构卷积神经网络 (CNN) 的节能硬件架构。通过充分利用训练模型中的强结构稀疏性以及专门利用动态激活稀疏性,PermCNN 为 CNN 模型的推理任务提供了非常高的硬件性能。一个采用 28 nm CMOS 技术的设计实例表明,与最先进的 CNN 加速器相比,PermCNN 在 AlexNet 工作负载上的面积和能效分别提高了 3.74 倍和 3.11 倍,以及 17.49 倍和 14.22 倍VGG 模型分别提高了面积和能源效率。在包括 DRAM 访问产生的能耗后,PermCNN 在 AlexNet 和 VGG 工作负载上分别实现了 2.60 倍和 9.62 倍的整体能耗改进。PermCNN 为 CNN 模型的推理任务提供了非常高的硬件性能。一个采用 28 nm CMOS 技术的设计实例表明,与最先进的 CNN 加速器相比,PermCNN 在 AlexNet 工作负载上的面积和能效分别提高了 3.74 倍和 3.11 倍,以及 17.49 倍和 14.22 倍VGG 模型分别提高了面积和能源效率。在包括 DRAM 访问产生的能耗后,PermCNN 在 AlexNet 和 VGG 工作负载上分别实现了 2.60 倍和 9.62 倍的整体能耗改进。PermCNN 为 CNN 模型的推理任务提供了非常高的硬件性能。一个采用 28 nm CMOS 技术的设计实例表明,与最先进的 CNN 加速器相比,PermCNN 在 AlexNet 工作负载上的面积和能效分别提高了 3.74 倍和 3.11 倍,以及 17.49 倍和 14.22 倍VGG 模型分别提高了面积和能源效率。在包括 DRAM 访问产生的能耗后,PermCNN 在 AlexNet 和 VGG 工作负载上分别实现了 2.60 倍和 9.62 倍的整体能耗改进。在 VGG 模型上,面积和能源效率分别提高了 49 倍和 14.22 倍。在包括 DRAM 访问产生的能耗后,PermCNN 在 AlexNet 和 VGG 工作负载上分别实现了 2.60 倍和 9.62 倍的整体能耗改进。在 VGG 模型上,面积和能源效率分别提高了 49 倍和 14.22 倍。在包括 DRAM 访问产生的能耗后,PermCNN 在 AlexNet 和 VGG 工作负载上分别实现了 2.60 倍和 9.62 倍的整体能耗改进。
更新日期:2021-02-01
down
wechat
bug