Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Addressing a New Class of Reliability Threats in 3-Dimensional Network-on-Chips
IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems ( IF 2.7 ) Pub Date : 2020-07-01 , DOI: 10.1109/tcad.2019.2917846
Ebadollah Taheri , Mihailo Isakov , Ahmad Patooghy , Michel A. Kinsy

Network-on-chips (NoCs) are vulnerable to transient and permanent faults caused by thermal violations, aging effects, component wear out, or even transient fault sources. Although some of these faults are addressed by previous research, we show that there are reliability threats in 3-D NoCs that go beyond the reliability issues investigated in 2-D interconnect networks. First, we highlight one such class of reliability threats and discuss their manifestations in 3-D NoCs. Second, we propose a thermal, reliability, and performance-aware routing algorithm to tackle: 1) previously established fault models and 2) the new highlighted class of reliability threats in partially connected 3-D NoCs. The proposed routing algorithm takes into account the states of routers and both the horizontal and through silicon via (TSV) links, along with the temperatures of routers and cores. It then routes the packets around failed or overheated links and routers, achieving lower latencies by avoiding misrouting. To achieve this, the proposed routing algorithm uses the concept of vertical link announcement to inform nodes in the network of the working condition of vertical links. We evaluate the proposed routing algorithm under a wide range of working conditions using the access Noxim NoC simulator. Results show that the proposed routing algorithm: 1) is able to tolerate almost any number and pattern of vertical link failures; 2) is reliable against the newly identified reliability threats; and 3) improves the latency and temperature distribution of the network compared to previously proposed routing algorithms.

中文翻译:

解决 3 维片上网络中的新一类可靠性威胁

片上网络 (NoC) 容易受到由热违规、老化效应、组件磨损甚至瞬态故障源引起的瞬态和永久性故障的影响。尽管之前的研究解决了其中一些故障,但我们表明 3-D NoC 中存在的可靠性威胁超出了 2-D 互连网络中调查的可靠性问题。首先,我们强调一类这样的可靠性威胁,并讨论它们在 3-D NoC 中的表现形式。其次,我们提出了一种热、可靠性和性能感知路由算法来解决:1) 先前建立的故障模型和 2) 部分连接的 3-D NoC 中新突出的可靠性威胁类别。所提出的路由算法考虑了路由器的状态以及水平和硅通孔 (TSV) 链路,以及路由器和核心的温度。然后,它围绕故障或过热的链路和路由器路由数据包,通过避免错误路由来降低延迟。为了实现这一点,所提出的路由算法使用垂直链路公告的概念来通知网络中的节点垂直链路的工作状态。我们使用访问 Noxim NoC 模拟器在各种工作条件下评估所提出的路由算法。结果表明,所提出的路由算法:1)能够容忍几乎任何数量和模式的垂直链路故障;2) 对新发现的可靠性威胁是可靠的;3) 与之前提出的路由算法相比,改进了网络的延迟和温度分布。然后,它围绕故障或过热的链路和路由器路由数据包,通过避免错误路由来降低延迟。为了实现这一点,所提出的路由算法使用垂直链路公告的概念来通知网络中的节点垂直链路的工作状况。我们使用访问 Noxim NoC 模拟器在各种工作条件下评估所提出的路由算法。结果表明,所提出的路由算法:1)能够容忍几乎任何数量和模式的垂直链路故障;2) 对新发现的可靠性威胁是可靠的;3) 与之前提出的路由算法相比,改进了网络的延迟和温度分布。然后,它围绕故障或过热的链路和路由器路由数据包,通过避免错误路由来降低延迟。为了实现这一点,所提出的路由算法使用垂直链路公告的概念来通知网络中的节点垂直链路的工作状态。我们使用访问 Noxim NoC 模拟器在各种工作条件下评估所提出的路由算法。结果表明,所提出的路由算法:1)能够容忍几乎任何数量和模式的垂直链路故障;2) 对新发现的可靠性威胁是可靠的;3) 与之前提出的路由算法相比,改进了网络的延迟和温度分布。所提出的路由算法使用垂直链路公告的概念来通知网络中的节点垂直链路的工作状况。我们使用访问 Noxim NoC 模拟器在各种工作条件下评估所提出的路由算法。结果表明,所提出的路由算法:1)能够容忍几乎任何数量和模式的垂直链路故障;2) 对新发现的可靠性威胁是可靠的;3) 与之前提出的路由算法相比,改进了网络的延迟和温度分布。所提出的路由算法使用垂直链路公告的概念来通知网络中的节点垂直链路的工作状况。我们使用访问 Noxim NoC 模拟器在各种工作条件下评估所提出的路由算法。结果表明,所提出的路由算法:1)能够容忍几乎任何数量和模式的垂直链路故障;2) 对新发现的可靠性威胁是可靠的;3) 与之前提出的路由算法相比,改进了网络的延迟和温度分布。结果表明,所提出的路由算法:1)能够容忍几乎任何数量和模式的垂直链路故障;2) 对新发现的可靠性威胁是可靠的;3) 与之前提出的路由算法相比,改进了网络的延迟和温度分布。结果表明,所提出的路由算法:1)能够容忍几乎任何数量和模式的垂直链路故障;2) 对新发现的可靠性威胁是可靠的;3) 与之前提出的路由算法相比,改进了网络的延迟和温度分布。
更新日期:2020-07-01
down
wechat
bug