当前位置: X-MOL 学术J. Electron. Imaging › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
FPGA accelerator for CNN: an exploration of the kernel structured sparsity and hybrid arithmetic computation
Journal of Electronic Imaging ( IF 1.0 ) Pub Date : 2021-06-01 , DOI: 10.1117/1.jei.30.3.033034
Guanwen Zhang 1 , Song Zhou 2 , Zhemin Duan 1 , Wei Zhou 1
Affiliation  

The deployment of large-scale deep neural networks on field programmable gate array (FPGA) platforms is severely hindered by the high requirements on computational resources and off-chip data bandwidth. Traditional nonstructured sparsity algorithms can efficiently reduce the nonzero weights of neural network models. However, the nonstructured sparse connections across channels also degrade the degree of computational parallelism and consequently seriously deteriorate the performance of the FPGA accelerator. We propose an FPGA accelerator by exploring the kernel structured sparsity and hybrid arithmetic computation for the convolutional neural network (CNN). On the one hand, we introduce a hardware-friendly kernel pruning method to reduce the number of arithmetic operations of the CNN model. Our proposed method maintains high accuracy (achieving a less than 0.32% accuracy loss) and achieves a high degree of parallelism. On the other hand, we design a specific hybrid arithmetic computation for the FPGA accelerator to speed up the performance of the pruned CNN model. The FPGA accelerator consists of only 64 sets of hybrid 8-bit and 16-bit floating-point units for the convolution operation. Experiments on VGGNet16 demonstrate that the proposed FPGA accelerator achieves a state-of-the-art 5 × convolution operation reduction and a 3 × parameter compression. The proposed FPGA accelerator is able to perform at 13.2 FPS, and the corresponding energy efficiency can be boosted up to 1.9 image / J.

中文翻译:

CNN 的 FPGA 加速器:内核结构稀疏性和混合算术计算的探索

对计算资源和片外数据带宽的高要求严重阻碍了在现场可编程门阵列 (FPGA) 平台上部署大规模深度神经网络。传统的非结构化稀疏算法可以有效地降低神经网络模型的非零权重。然而,跨通道的非结构化稀疏连接也会降低计算并行度,从而严重降低 FPGA 加速器的性能。我们通过探索卷积神经网络 (CNN) 的内核结构稀疏性和混合算术计算,提出了 FPGA 加速器。一方面,我们引入了一种硬件友好的内核修剪方法,以减少 CNN 模型的算术运算次数。我们提出的方法保持高精度(实现小于 0.32% 的精度损失)并实现高度的并行性。另一方面,我们为 FPGA 加速器设计了一种特定的混合算术计算,以加快修剪后的 CNN 模型的性能。FPGA 加速器仅由 64 组混合 8 位和 16 位浮点单元组成,用于卷积运算。VGGNet16 上的实验表明,所提出的 FPGA 加速器实现了最先进的 5 倍卷积运算缩减和 3 倍参数压缩。所提出的FPGA加速器能够以13.2 FPS的速度运行,相应的能效可以提升到1.9 image / J。我们为 FPGA 加速器设计了一种特定的混合算术计算,以加快修剪后的 CNN 模型的性能。FPGA 加速器仅由 64 组混合 8 位和 16 位浮点单元组成,用于卷积运算。VGGNet16 上的实验表明,所提出的 FPGA 加速器实现了最先进的 5 倍卷积运算缩减和 3 倍参数压缩。所提出的FPGA加速器能够以13.2 FPS的速度运行,相应的能效可以提升到1.9 image / J。我们为 FPGA 加速器设计了一种特定的混合算术计算,以加快修剪后的 CNN 模型的性能。FPGA 加速器仅由 64 组混合 8 位和 16 位浮点单元组成,用于卷积运算。VGGNet16 上的实验表明,所提出的 FPGA 加速器实现了最先进的 5 倍卷积运算缩减和 3 倍参数压缩。所提出的FPGA加速器能够以13.2 FPS的速度运行,相应的能效可以提升到1.9 image / J。VGGNet16 上的实验表明,所提出的 FPGA 加速器实现了最先进的 5 倍卷积运算缩减和 3 倍参数压缩。所提出的FPGA加速器能够以13.2 FPS的速度运行,相应的能效可以提升到1.9 image / J。VGGNet16 上的实验表明,所提出的 FPGA 加速器实现了最先进的 5 倍卷积运算缩减和 3 倍参数压缩。所提出的FPGA加速器能够以13.2 FPS的速度运行,相应的能效可以提升到1.9 image / J。
更新日期:2021-06-28
down
wechat
bug