当前位置: X-MOL 学术arXiv.cs.AR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
ChewBaccaNN: A Flexible 223 TOPS/W BNN Accelerator
arXiv - CS - Hardware Architecture Pub Date : 2020-05-12 , DOI: arxiv-2005.07137
Renzo Andri, Geethan Karunaratne, Lukas Cavigelli, Luca Benini

Binary Neural Networks enable smart IoT devices, as they significantly reduce the required memory footprint and computational complexity while retaining a high network performance and flexibility. This paper presents ChewBaccaNN, a 0.7 mm$^2$ sized binary convolutional neural network (CNN) accelerator designed in GlobalFoundries 22 nm technology. By exploiting efficient data re-use, data buffering, latch-based memories, and voltage scaling, a throughput of 241 GOPS is achieved while consuming just 1.1 mW at 0.4V/154MHz during inference of binary CNNs with up to 7x7 kernels, leading to a core energy efficiency of 223 TOPS/W. ChewBaccaNN's flexibility allows to run a much wider range of binary CNNs than other accelerators, drastically improving the accuracy-energy trade-off beyond what can be captured by the TOPS/W metric. In fact, it can perform CIFAR-10 inference at 86.8% accuracy with merely 1.3 {\mu}J, thus exceeding the accuracy while at the same time lowering the energy cost by 2.8x compared to even the most efficient and much larger analog processing-in-memory devices, while keeping the flexibility of running larger CNNs for higher accuracy when needed. It also runs a binary ResNet-18 trained on the 1000-class ILSVRC dataset and improves the energy efficiency by 4.4x over accelerators of similar flexibility. Furthermore, it can perform inference on a binarized ResNet-18 trained with 8-bases Group-Net to achieve a 67.5% Top-1 accuracy with only 3.0\,mJ/frame - at an accuracy drop of merely 1.8\% from the full-precision ResNet-18.

中文翻译:

ChewBaccaNN:灵活的 223 TOPS/W BNN 加速器

二元神经网络支持智能物联网设备,因为它们显着减少了所需的内存占用和计算复杂性,同时保持了较高的网络性能和灵活性。本文介绍了 ChewBaccaNN,这是一种采用 GlobalFoundries 22 nm 技术设计的 0.7 mm$^2$ 大小的二元卷积神经网络 (CNN) 加速器。通过利用高效的数据重用、数据缓冲、基于锁存器的存储器和电压缩放,在对具有高达 7x7 内核的二进制 CNN 进行推理期间,在 0.4V/154MHz 下仅消耗 1.1 mW 的同时实现了 241 GOPS 的吞吐量,从而导致核心能效为 223 TOPS/W。ChewBaccaNN 的灵活性允许运行比其他加速器更广泛的二元 CNN,大大提高了精度 - 能量的权衡,超出了 TOPS/W 指标可以捕获的范围。实际上,它可以以 86.8% 的准确度执行 CIFAR-10 推理,只需 1.3 {\mu}J,从而超过准确度,同时与最高效和更大的模拟处理相比,能源成本降低了 2.8 倍。存储设备,同时保持在需要时运行更大的 CNN 以获得更高准确度的灵活性。它还运行在 1000 级 ILSVRC 数据集上训练的二进制 ResNet-18,与具有类似灵活性的加速器相比,能效提高了 4.4 倍。此外,它可以对用 8 个基组网络训练的二值化 ResNet-18 进行推理,以仅 3.0\,mJ/帧的情况下达到 67.5% 的 Top-1 准确度 - 准确度仅比完整的 1.8\% 下降-精度 ResNet-18。因此,与最高效和更大的内存中模拟处理设备相比,同时将能源成本降低了 2.8 倍,同时保持了在需要时运行更大 CNN 以获得更高准确度的灵活性。它还运行在 1000 级 ILSVRC 数据集上训练的二进制 ResNet-18,与具有类似灵活性的加速器相比,能效提高了 4.4 倍。此外,它可以对用 8 个基组网络训练的二值化 ResNet-18 进行推理,以仅 3.0\,mJ/帧的情况下达到 67.5% 的 Top-1 准确度 - 准确度仅比完整的 1.8\% 下降-精度 ResNet-18。因此,与最高效和更大的内存中模拟处理设备相比,同时将能源成本降低了 2.8 倍,同时保持了在需要时运行更大 CNN 以获得更高准确度的灵活性。它还运行在 1000 级 ILSVRC 数据集上训练的二进制 ResNet-18,与具有类似灵活性的加速器相比,能效提高了 4.4 倍。此外,它可以对用 8 个基组网络训练的二值化 ResNet-18 进行推理,以仅 3.0\,mJ/帧的情况下达到 67.5% 的 Top-1 准确度 - 准确度仅比完整的 1.8\% 下降-精度 ResNet-18。它还运行在 1000 级 ILSVRC 数据集上训练的二进制 ResNet-18,与具有类似灵活性的加速器相比,能效提高了 4.4 倍。此外,它可以对用 8 基组网训练的二值化 ResNet-18 进行推理,以仅 3.0\,mJ/帧的情况下达到 67.5% 的 Top-1 准确率——准确率仅比全集下降 1.8% -精度 ResNet-18。它还运行在 1000 级 ILSVRC 数据集上训练的二进制 ResNet-18,与具有类似灵活性的加速器相比,能效提高了 4.4 倍。此外,它可以对用 8 基组网训练的二值化 ResNet-18 进行推理,以仅 3.0\,mJ/帧的情况下达到 67.5% 的 Top-1 准确率——准确率仅比全集下降 1.8% -精度 ResNet-18。
更新日期:2020-11-06
down
wechat
bug