当前位置: X-MOL 学术Alex. Eng. J. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Area and energy efficient shift and accumulator unit for object detection in IoT applications
Alexandria Engineering Journal ( IF 6.2 ) Pub Date : 2021-06-05 , DOI: 10.1016/j.aej.2021.04.099
Anakhi Hazarika , Soumyajit Poddar , Moustafa M. Nasralla , Hafizur Rahaman

Convolutional Neural Networks (CNNs) exhibit significant performance enhancements in several machine learning tasks such as surveillance, intelligent transportation, smart grids and healthcare systems. With the proliferation of physical things being connected to internet and enabled with sensory capabilities to form an Internet of Thing (IoT) network, it is increasingly important to run CNN inference, a computationally intensive application, on the resource constrained IoT devices. Object detection is a fundamental computer vision problem that provides information for image understanding in several artificial intelligence (AI) applications in smart cities. Among various object detection algorithms, CNN has emerged as a new paradigm to improve the overall performance. The Multiply-accumulate (MAC) operations, which are used repeatedly in the convolution layers of CNN, hold extreme computational complexity. Hence, the overall computational workloads and their respective energy consumption of any CNN applications are on the rise. To overcome these escalating challenges, approximate computing mechanism has played a vital role in reducing power and area of computation intensive CNN applications. In this paper, we have designed an approximate MAC architecture, termed Shift and Accumulator Unit (SAC), for the error-resilient CNN based object detection algorithm targeting embedded platforms. The proposed computing unit deliberately trades accuracy to reduce design complexity and power consumption, thus suiting the resource constrained IoT devices. The pipeline architecture of the SAC unit saves approximately 1.8× clock cycles than the non-pipeline SAC architecture. The performance evaluation shows that the proposed computing unit has better energy efficiency and resource utilization than the accurate multiplier and state-of-the-art approximate multipliers without noticeable deterioration in overall performance.



中文翻译:

用于物联网应用中物体检测的面积和节能移位和累加器单元

卷积神经网络 (CNN) 在多项机器学习任务中表现出显着的性能增强,例如监控、智能交通、智能电网和医疗保健系统。随着连接到互联网的物理事物的激增,并启用了感知能力以形成物联网 (IoT) 网络,在资源受限的物联网设备上运行 CNN 推理(一种计算密集型应用程序)变得越来越重要。对象检测是一个基本的计算机视觉问题,它为智能城市中的多个人工智能 (AI) 应用程序中的图像理解提供信息。在各种物体检测算法中,CNN 已成为提高整体性能的新范式。乘法累加 (MAC) 操作,在 CNN 的卷积层中重复使用,具有极高的计算复杂度。因此,任何 CNN 应用程序的整体计算工作量及其各自的能耗都在上升。为了克服这些不断升级的挑战,近似计算机制在降低计算密集型 CNN 应用的功耗和面积方面发挥了至关重要的作用。在本文中,我们设计了一种近似的 MAC 架构,称为移位和累加器单元 (SAC),用于针对嵌入式平台的基于 CNN 的容错对象检测算法。所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 持有极端的计算复杂度。因此,任何 CNN 应用程序的整体计算工作量及其各自的能耗都在上升。为了克服这些不断升级的挑战,近似计算机制在降低计算密集型 CNN 应用的功耗和面积方面发挥了至关重要的作用。在本文中,我们设计了一种近似的 MAC 架构,称为移位和累加器单元 (SAC),用于针对嵌入式平台的基于 CNN 的容错对象检测算法。所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 持有极端的计算复杂度。因此,任何 CNN 应用程序的整体计算工作量及其各自的能耗都在上升。为了克服这些不断升级的挑战,近似计算机制在降低计算密集型 CNN 应用的功耗和面积方面发挥了至关重要的作用。在本文中,我们设计了一种近似的 MAC 架构,称为移位和累加器单元 (SAC),用于针对嵌入式平台的基于 CNN 的容错对象检测算法。所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 任何 CNN 应用程序的整体计算工作量及其各自的能耗都在上升。为了克服这些不断升级的挑战,近似计算机制在降低计算密集型 CNN 应用的功耗和面积方面发挥了至关重要的作用。在本文中,我们设计了一种近似的 MAC 架构,称为移位和累加器单元 (SAC),用于针对嵌入式平台的基于 CNN 的容错对象检测算法。所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 任何 CNN 应用程序的整体计算工作量及其各自的能耗都在上升。为了克服这些不断升级的挑战,近似计算机制在降低计算密集型 CNN 应用的功耗和面积方面发挥了至关重要的作用。在本文中,我们设计了一种近似的 MAC 架构,称为移位和累加器单元 (SAC),用于针对嵌入式平台的基于 CNN 的容错对象检测算法。所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 近似计算机制在降低计算密集型 CNN 应用的功耗和面积方面发挥了至关重要的作用。在本文中,我们设计了一种近似的 MAC 架构,称为移位和累加器单元 (SAC),用于针对嵌入式平台的基于 CNN 的容错对象检测算法。所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 近似计算机制在降低计算密集型 CNN 应用的功耗和面积方面发挥了至关重要的作用。在本文中,我们设计了一种近似的 MAC 架构,称为移位和累加器单元 (SAC),用于针对嵌入式平台的基于 CNN 的容错对象检测算法。所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约 所提出的计算单元故意牺牲准确性以降低设计复杂性和功耗,从而适合资源受限的物联网设备。SAC 单元的流水线架构节省了大约1.8×时钟周期比非流水线 SAC 架构。性能评估表明,与精确乘法器和最先进的近似乘法器相比,所提出的计算单元具​​有更好的能源效率和资源利用率,而整体性能没有明显下降。

更新日期:2021-08-01
down
wechat
bug