当前位置: X-MOL 学术IEEE J. Emerg. Sel. Top. Circuits Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Compute-in-Memory Hardware Accelerator Design With Back-End-of-Line (BEOL) Transistor Based Reconfigurable Interconnect
IEEE Journal on Emerging and Selected Topics in Circuits and Systems ( IF 4.6 ) Pub Date : 2022-05-23 , DOI: 10.1109/jetcas.2022.3177577
Yandong Luo 1 , Sourav Dutta 2 , Ankit Kaul 1 , Sung Kyu Lim 1 , Muhannad Bakir 1 , Suman Datta 2 , Shimeng Yu 1
Affiliation  

Compute-in-memory (CIM) paradigm using ferroelectric field effect transistor (FeFET) as the weight element is projected to exhibit excellent energy efficiency for accelerating deep neural network (DNN) inference. However, two challenges exist. On the technology level, the chip area scaling is stalled due to the lack of logic voltage compatible FeFET at leading-edge technology node, e. g. 7nm. On the system level, CIM-based inference engine designs are usually customized for a specific DNN model, lacking the flexibility to support different DNN models. Besides, communication latency varies across different DNN models and can bound the total inference latency. Therefore, a reconfigurable interconnect is desired to be adaptive to different workloads, which can induce high area cost due to the reconfigurable circuit modules. To solve these issues, in this work, a system-technology co-design (STCO) of a monolithic 3D (M3D) reconfigurable CIM accelerator is performed, where back-end-of-line (BEOL) compatible oxide channel MOSFET and FeFET technologies are utilized. On the technology level, W-doped indium oxide (IWO) NMOS is utilized to design area-efficient M3D write circuit. On the system level, a reconfigurable interconnect design that inserts workload-specific express link is proposed, where the IWO-based NMOS and FeFET are adopted as the building element of the mux and crossbar switch in the router. The algorithm for interconnect configuration is also devised to achieve optimal latency for different workloads. From the system-level evaluation results, M3D IWO FeFET design (utilizing a hybrid 22nm/7nm M3D partition) shows $3.1\times $ times higher energy efficiency than a 7nm 2D SRAM design with comparable chip area. With the proposed reconfigurable interconnect scheme, the interconnect latency is reduced by 9%~32% compared to the baseline with a regular mesh network.

中文翻译:

具有基于后端 (BEOL) 晶体管的可重构互连的内存计算硬件加速器设计

使用铁电场效应晶体管 (FeFET) 作为权重元素的内存计算 (CIM) 范式预计将表现出出色的能量效率,以加速深度神经网络 (DNN) 推理。然而,存在两个挑战。在技​​术层面,由于在前沿技术节点(例如 7nm)缺乏与逻辑电压兼容的 FeFET,芯片面积缩放停滞不前。在系统层面,基于 CIM 的推理引擎设计通常针对特定的 DNN 模型进行定制,缺乏支持不同 DNN 模型的灵活性。此外,不同 DNN 模型的通信延迟会有所不同,并且会限制总推理延迟。因此,需要一种可重构的互连来适应不同的工作负载,这会由于可重构的电路模块而导致高的面积成本。为了解决这些问题,在这项工作中,执行了单片 3D (M3D) 可重构 CIM 加速器的系统技术协同设计 (STCO),其中使用了后端 (BEOL) 兼容氧化物通道 MOSFET 和 FeFET 技术。在技​​术层面,W掺杂的氧化铟(IWO)NMOS用于设计具有面积效率的M3D写入电路。在系统层面,提出了一种插入特定工作负载的快速链路的可重构互连设计,其中采用基于 IWO 的 NMOS 和 FeFET 作为路由器中多路复用器和交叉开关的构建元素。还设计了互连配置算法,以实现不同工作负载的最佳延迟。从系统级评估结果来看,M3D IWO FeFET 设计(采用混合 22nm/7nm M3D 分区)显示 执行了单片 3D (M3D) 可重构 CIM 加速器的系统技术协同设计 (STCO),其中使用了后端 (BEOL) 兼容氧化物通道 MOSFET 和 FeFET 技术。在技​​术层面,W掺杂的氧化铟(IWO)NMOS用于设计具有面积效率的M3D写入电路。在系统层面,提出了一种插入特定工作负载的快速链路的可重构互连设计,其中采用基于 IWO 的 NMOS 和 FeFET 作为路由器中多路复用器和交叉开关的构建元素。还设计了互连配置算法,以实现不同工作负载的最佳延迟。从系统级评估结果来看,M3D IWO FeFET 设计(采用混合 22nm/7nm M3D 分区)显示 执行了单片 3D (M3D) 可重构 CIM 加速器的系统技术协同设计 (STCO),其中使用了后端 (BEOL) 兼容氧化物通道 MOSFET 和 FeFET 技术。在技​​术层面,W掺杂的氧化铟(IWO)NMOS用于设计具有面积效率的M3D写入电路。在系统层面,提出了一种插入特定工作负载的快速链路的可重构互连设计,其中采用基于 IWO 的 NMOS 和 FeFET 作为路由器中多路复用器和交叉开关的构建元素。还设计了互连配置算法,以实现不同工作负载的最佳延迟。从系统级评估结果来看,M3D IWO FeFET 设计(采用混合 22nm/7nm M3D 分区)显示 其中使用了与后端 (BEOL) 兼容的氧化物通道 MOSFET 和 FeFET 技术。在技​​术层面,W掺杂的氧化铟(IWO)NMOS用于设计具有面积效率的M3D写入电路。在系统层面,提出了一种插入特定工作负载的快速链路的可重构互连设计,其中采用基于 IWO 的 NMOS 和 FeFET 作为路由器中多路复用器和交叉开关的构建元素。还设计了互连配置算法,以实现不同工作负载的最佳延迟。从系统级评估结果来看,M3D IWO FeFET 设计(采用混合 22nm/7nm M3D 分区)显示 其中使用了与后端 (BEOL) 兼容的氧化物通道 MOSFET 和 FeFET 技术。在技​​术层面,W掺杂的氧化铟(IWO)NMOS用于设计具有面积效率的M3D写入电路。在系统层面,提出了一种插入特定工作负载的快速链路的可重构互连设计,其中采用基于 IWO 的 NMOS 和 FeFET 作为路由器中多路复用器和交叉开关的构建元素。还设计了互连配置算法,以实现不同工作负载的最佳延迟。从系统级评估结果来看,M3D IWO FeFET 设计(采用混合 22nm/7nm M3D 分区)显示 在系统层面,提出了一种插入特定工作负载的快速链路的可重构互连设计,其中采用基于 IWO 的 NMOS 和 FeFET 作为路由器中多路复用器和交叉开关的构建元素。还设计了互连配置算法,以实现不同工作负载的最佳延迟。从系统级评估结果来看,M3D IWO FeFET 设计(采用混合 22nm/7nm M3D 分区)显示 在系统层面,提出了一种插入特定工作负载的快速链路的可重构互连设计,其中采用基于 IWO 的 NMOS 和 FeFET 作为路由器中多路复用器和交叉开关的构建元素。还设计了互连配置算法,以实现不同工作负载的最佳延迟。从系统级评估结果来看,M3D IWO FeFET 设计(采用混合 22nm/7nm M3D 分区)显示 $3.1\乘以 $比具有同等芯片面积的 7nm 2D SRAM 设计的能效高出数倍。通过提出的可重构互连方案,与使用常规网状网络的基线相比,互连延迟降低了 9%~32%。
更新日期:2022-05-23
down
wechat
bug