当前位置: X-MOL 学术Microelectron. Reliab. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
FlexGripPlus: An improved GPGPU model to support reliability analysis
Microelectronics Reliability ( IF 1.6 ) Pub Date : 2020-06-01 , DOI: 10.1016/j.microrel.2020.113660
Josie E. Rodriguez Condia , Boyang Du , Matteo Sonza Reorda , Luca Sterpone

Abstract General Purpose Graphics Processing Units (GPGPUs) have been extensively used in the last decade as accelerators in high demanding applications, such as multimedia processing and high-performance computing. Nowadays, these devices are becoming popular even in safety-critical applications, such as in autonomous and semi-autonomous vehicles. However, these devices can suffer from the effects of transient faults, such as those produced by radiation effects. Among those effects, Single Event Upsets (SEUs), which are the focus of this paper, can cause application misbehaviors, which may lead to catastrophic consequences. In this work, we first describe how we extended the capabilities of an open-source VHDL GPGPU model (FlexGrip) and developed a new version named FlexGripPlus to study and analyze the effects of SEUs in a GPGPU in a much more detailed manner. We also performed extensive fault injection campaigns using FlexGripPlus, which allowed identifying the most critical effects within the GPGPU architecture. We finally focused on the scheduler controller since it represents a module that is specific to the GPGPU architecture and showed that it has different levels of SEU sensibility depending on the affected location. Moreover, the results of additional analyses varying the number of parallel execution units in the system are presented, demonstrating the correlation between the number of execution units in a GPGPU and the system reliability.

中文翻译:

FlexGripPlus:改进的 GPGPU 模型,支持可靠性分析

摘要 通用图形处理单元 (GPGPU) 在过去十年中被广泛用作高要求应用程序中的加速器,例如多媒体处理和高性能计算。如今,这些设备甚至在安全关键应用中也变得流行起来,例如在自动驾驶和半自动驾驶汽车中。然而,这些设备可能会受到瞬态故障的影响,例如由辐射效应产生的故障。在这些影响中,作为本文重点的单事件翻转 (SEU) 会导致应用程序不当行为,从而可能导致灾难性后果。在这项工作中,我们首先描述了我们如何扩展开源 VHDL GPGPU 模型 (FlexGrip) 的功能并开发名为 FlexGripPlus 的新版本,以更详细地研究和分析 SEU 在 GPGPU 中的影响。我们还使用 FlexGripPlus 执行了广泛的故障注入活动,它允许识别 GPGPU 架构中最关键的影响。我们最终专注于调度程序控制器,因为它代表了一个特定于 GPGPU 架构的模块,并表明它根据受影响的位置具有不同级别的 SEU 敏感性。此外,还提供了改变系统中并行执行单元数量的附加分析的结果,证明了 GPGPU 中执行单元的数量与系统可靠性之间的相关性。我们还使用 FlexGripPlus 执行了广泛的故障注入活动,它允许识别 GPGPU 架构中最关键的影响。我们最终专注于调度程序控制器,因为它代表了一个特定于 GPGPU 架构的模块,并表明它根据受影响的位置具有不同级别的 SEU 敏感性。此外,还提供了改变系统中并行执行单元数量的附加分析的结果,证明了 GPGPU 中执行单元的数量与系统可靠性之间的相关性。我们还使用 FlexGripPlus 执行了广泛的故障注入活动,它允许识别 GPGPU 架构中最关键的影响。我们最终专注于调度程序控制器,因为它代表了一个特定于 GPGPU 架构的模块,并表明它根据受影响的位置具有不同级别的 SEU 敏感性。此外,还提供了改变系统中并行执行单元数量的附加分析的结果,证明了 GPGPU 中执行单元的数量与系统可靠性之间的相关性。我们最终专注于调度程序控制器,因为它代表了一个特定于 GPGPU 架构的模块,并表明它根据受影响的位置具有不同级别的 SEU 敏感性。此外,还提供了改变系统中并行执行单元数量的附加分析的结果,证明了 GPGPU 中执行单元的数量与系统可靠性之间的相关性。我们最终专注于调度程序控制器,因为它代表了一个特定于 GPGPU 架构的模块,并表明它根据受影响的位置具有不同级别的 SEU 敏感性。此外,还提供了改变系统中并行执行单元数量的附加分析的结果,证明了 GPGPU 中执行单元的数量与系统可靠性之间的相关性。
更新日期:2020-06-01
down
wechat
bug