Enabling Near-Data Accelerators Adoption by Through Investigation of Datapath Solutions,International Journal of Parallel Programming

当前位置： X-MOL 学术 › Int. J. Parallel. Program › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

Enabling Near-Data Accelerators Adoption by Through Investigation of Datapath Solutions
International Journal of Parallel Programming ( IF 0.9 ) Pub Date : 2021-01-28 , DOI: 10.1007/s10766-020-00674-y
Paulo C. Santos , João P. C. de Lima , Rafael F. de Moura , Marco A. Z. Alves , Antonio C. S. Beck , Luigi Carro

Processing-in-Memory (PIM) or Near-Data Accelerator (NDA) has been recently revisited to mitigate the issues of memory and power wall, mainly supported by the maturity of 3D-staking manufacturing technology, and the increasing demand for bandwidth and parallel data access in emerging processing-hungry applications. However, as these designs are naturally decoupled from main processors, at least three open issues must be tackled to allow the adoption of PIM: how to offload instructions from the host to NDAs, since many can be placed along memory; how to keep cache coherence between host and NDAs, and how to deal with the internal communication between different NDA units considering that NDAs can communicate to each other to better exploit their adoptions. In this work, we present an efficient design to solve these challenges. Based on the hybrid Host-Accelerator code, to provide fine-grain control, our design allows transparent offloading of NDA instructions directly from a host processor. Moreover, our design proposes a data coherence protocol, which includes an inclusion-policy agnostic cache coherence mechanism to share data between the host processor and the NDA units, transparently, and a protocol to allow communication between different NDA units. The proposed mechanism allows full exploitation of the experimented state-of-the-art design, achieving a speedup of up to 14.6× compared to a AVX architecture on PolyBench Suite, using, on average, 82% of the total time for processing and only 18% for the cache coherence and communication protocols.

中文翻译：

通过调查数据路径解决方案来启用近数据加速器

最近重新审视了内存中处理（PIM）或近数据加速器（NDA），以缓解内存和功耗壁的问题，这主要受到3D贴片制造技术的成熟以及对带宽和并行性的日益增长的支持新兴的需要大量处理的应用程序中的数据访问。但是，由于这些设计与主处理器自然是分离的，因此必须解决至少三个未解决的问题，以允许采用PIM：由于许多指令可以放在内存中，因此如何将指令从主机卸载到NDA。考虑到NDA可以相互通信以更好地利用它们，如何保持主机和NDA之间的缓存一致性，以及如何处理不同NDA单元之间的内部通信。在这项工作中，我们提出了一种有效的设计来解决这些挑战。基于混合主机加速器代码，为了提供细粒度控制，我们的设计允许直接从主机处理器透明卸载NDA指令。此外，我们的设计提出了一种数据一致性协议，该协议包括一个包含策略不可知的高速缓存一致性机制，以透明地在主机处理器和NDA单元之间共享数据，以及一个允许不同NDA单元之间进行通信的协议。所提出的机制允许充分利用试验过的最先进设计，与PolyBench Suite上的AVX架构相比，其速度提高了14.6倍，平均使用了总处理时间的82％，并且仅18％用于高速缓存一致性和通信协议。我们的设计允许直接从主机处理器透明卸载NDA指令。此外，我们的设计提出了一种数据一致性协议，该协议包括一个包含策略不可知的高速缓存一致性机制，以透明地在主机处理器和NDA单元之间共享数据，以及一个允许不同NDA单元之间进行通信的协议。所提出的机制允许充分利用试验过的最先进设计，与PolyBench Suite上的AVX架构相比，其速度提高了14.6倍，平均使用了总处理时间的82％，并且仅18％用于高速缓存一致性和通信协议。我们的设计允许直接从主机处理器透明卸载NDA指令。此外，我们的设计提出了一种数据一致性协议，该协议包括一个包含策略不可知的高速缓存一致性机制，以透明地在主机处理器和NDA单元之间共享数据，以及一个允许不同NDA单元之间进行通信的协议。所提出的机制允许充分利用试验过的最先进设计，与PolyBench Suite上的AVX架构相比，其速度提高了14.6倍，平均使用了总处理时间的82％，并且仅18％用于高速缓存一致性和通信协议。它包括一个包含策略不可知的高速缓存一致性机制，以透明方式在主机处理器和NDA单元之间共享数据，以及一个协议，允许不同NDA单元之间进行通信。所提出的机制允许充分利用试验过的最先进设计，与PolyBench Suite上的AVX架构相比，其速度提高了14.6倍，平均使用了总处理时间的82％，并且仅18％用于高速缓存一致性和通信协议。它包括一个包含策略不可知的高速缓存一致性机制，以透明方式在主机处理器和NDA单元之间共享数据，以及一个协议，允许不同NDA单元之间进行通信。所提出的机制允许充分利用试验过的最先进设计，与PolyBench Suite上的AVX架构相比，其速度提高了14.6倍，平均使用了总处理时间的82％，并且仅18％用于高速缓存一致性和通信协议。

更新日期：2021-01-28

点击分享查看原文

点击收藏

阅读更多本刊最新论文本刊介绍/投稿指南11