当前位置: X-MOL 学术Microelectron. Reliab. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Analyzing and increasing soft error resilience of Deep Neural Networks on ARM processors
Microelectronics Reliability ( IF 1.6 ) Pub Date : 2021-08-07 , DOI: 10.1016/j.microrel.2021.114331
Zhi Liu 1 , Yuhong Liu 1 , Zhengming Chen 1 , Gang Guo 2 , Haibin Wang 1, 3
Affiliation  

Deep Neural Networks (DNNs) have been successfully deployed in safety-critical applications due to the capability of computing in complex tasks. Because of low energy, ARM (Advanced RISC Machine) processors are used for DNNs in embedded applications. However, in harsh environments, soft errors induced by radiation strikes may cause Silent Data Corruptions (SDCs) and Detected Unrecoverable Errors (DUEs). In this work, for DNNs, we evaluate the soft error resilience of the register file and analyze the impact of compiler optimizations. The results show that compiler optimization significantly degrades the reliability of DNNs. Furthermore, we track SDC propagation and record execution time for each layer. The results indicate that for most DNNs, convolutional layers are the most vulnerable because they are the most time-consuming parts. For instructions, we evaluate Program Vulnerability Factor (PVF) contributions of instructions and identify the vulnerable instructions that may cause critical SDCs. To mitigate critical SDCs, we propose two efficient approaches: 1) selective kernel hardening and 2) Symptom-based Duplication with Comparison (SDWC). The former reduces SDCs by an order of magnitude and incurs 33.56% time overhead. The second approach reduces critical SDCs to 0 and incurs less than 10% time overhead. For DUEs, we propose an idempotency-based recovery. Our approach mitigates more than 92.2% DUEs and incurs 3.43% latency overhead on average.



中文翻译:

分析和提高 ARM 处理器上深度神经网络的软错误恢复能力

由于复杂任务的计算能力,深度神经网络 (DNN) 已成功部署在安全关键应用程序中。由于低能耗,ARM(高级 RISC 机器)处理器用于嵌入式应用中的 DNN。然而,在恶劣的环境中,由辐射冲击引起的软错误可能会导致静默数据损坏 (SDC) 和检测到的不可恢复错误 (DUE)。在这项工作中,对于 DNN,我们评估了寄存器文件的软错误恢复能力并分析了编译器优化的影响。结果表明,编译器优化显着降低了 DNN 的可靠性。此外,我们跟踪 SDC 传播并记录每一层的执行时间。结果表明,对于大多数 DNN,卷积层是最脆弱的,因为它们是最耗时的部分。对于指令,我们评估指令的程序漏洞因子 (PVF) 贡献并识别可能导致关键 SDC 的易受攻击的指令。为了缓解关键的 SDC,我们提出了两种有效的方法:1) 选择性内核强化和 2) 基于症状的复制与比较 (SDWC)。前者将 SDC 减少了一个数量级,并导致 33.56% 的时间开销。第二种方法将关键 SDC 减少到 0,并且产生的时间开销不到 10%。对于 DUE,我们提出了基于幂等性的恢复。我们的方法减少了超过 92.2% 的 DUE,并导致平均 3.43% 的延迟开销。1) 选择性内核强化和 2) 基于症状的复制与比较 (SDWC)。前者将 SDC 减少了一个数量级,并导致 33.56% 的时间开销。第二种方法将关键 SDC 减少到 0,并且产生的时间开销不到 10%。对于 DUE,我们提出了基于幂等性的恢复。我们的方法减少了超过 92.2% 的 DUE,并导致平均 3.43% 的延迟开销。1) 选择性内核强化和 2) 基于症状的复制与比较 (SDWC)。前者将 SDC 减少了一个数量级,并导致 33.56% 的时间开销。第二种方法将关键 SDC 减少到 0,并且产生的时间开销不到 10%。对于 DUE,我们提出了基于幂等性的恢复。我们的方法减少了超过 92.2% 的 DUE,并导致平均 3.43% 的延迟开销。

更新日期:2021-08-09
down
wechat
bug