当前位置: X-MOL 学术IEEE Trans. Parallel Distrib. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
ARENA: Asynchronous Reconfigurable Accelerator Ring to Enable Data-Centric Parallel Computing
IEEE Transactions on Parallel and Distributed Systems ( IF 5.3 ) Pub Date : 2021-05-19 , DOI: 10.1109/tpds.2021.3081074
Cheng Tan , Chenhao Xie , Tong Geng , Andres Marquez , Antonino Tumeo , Kevin Barker , Ang Li

The next generation HPC and data centers are likely to be reconfigurable and data-centric due to the trend of hardware specialization and the emergence of data-driven applications. In this article, we propose ARENA – an asynchronous reconfigurable accelerator ring architecture as a potential scenario on how the future HPC and data centers will be like. Despite using the coarse-grained reconfigurable arrays (CGRAs) as the substrate platform, our key contribution is not only the CGRA-cluster design itself, but also the ensemble of a new architecture and programming model that enables asynchronous tasking across a cluster of reconfigurable nodes, so as to bring specialized computation to the data rather than the reverse. We presume distributed data storage without asserting any prior knowledge on the data distribution. Hardware specialization occurs at runtime when a task finds the majority of data it requires are available at the present node. In other words, we dynamically generate specialized CGRA accelerators where the data reside. The asynchronous tasking for bringing computation to data is achieved by circulating the task token, which describes the dataflow graphs to be executed for a task, among the CGRA cluster connected by a fast ring network. Evaluations on a set of HPC and data-driven applications across different domains show that ARENA can provide better parallel scalability with reduced data movement (53.9 percent). Compared with contemporary compute-centric parallel models, ARENA can bring on average 4.37× speedup. The synthesized CGRAs and their task-dispatchers only occupy 2.93mm $^2$ chip area under 45nm process technology and can run at 800MHz with on average 759.8mW power consumption. ARENA also supports the concurrent execution of multi-applications, offering ideal architectural support for future high-performance parallel computing and data analytics systems.

中文翻译:

ARENA:实现以数据为中心的并行计算的异步可重配置加速器环

由于硬件专业化的趋势和数据驱动应用程序的出现,下一代高性能计算和数据中心很可能是可重构的和以数据为中心的。在本文中,我们提出 ARENA——一种异步可重构加速器环架构,作为未来 HPC 和数据中心的潜在场景。尽管使用粗粒度可重构阵列 (CGRA) 作为基础平台,但我们的主要贡献不仅在于 CGRA 集群设计本身,还在于新架构和编程模型的集成,该模型支持跨可重构节点集群的异步任务,从而为数据带来专门的计算,而不是相反。我们假设分布式数据存储,而无需断言任何有关数据分布的先验知识。当任务发现它所需的大部分数据在当前节点可用时,就会在运行时发生硬件专业化。换句话说,我们在数据所在的位置动态生成专门的 CGRA 加速器。通过在由快速环网络连接的 CGRA 集群中循环任务令牌来实现将计算带入数据的异步任务,该令牌描述了要为任务执行的数据流图。对跨不同领域的一组 HPC 和数据驱动应用程序的评估表明,ARENA 可以提供更好的并行可扩展性,同时减少数据移动 (53.9%)。与当代以计算为中心的并行模型相比,ARENA 可以带来平均 4.37 倍的加速。合成的 CGRA 及其任务调度器仅占用 2.93mm 我们在数据所在的位置动态生成专门的 CGRA 加速器。通过在由快速环网络连接的 CGRA 集群中循环任务令牌来实现将计算带入数据的异步任务,该令牌描述了要为任务执行的数据流图。对跨不同领域的一组 HPC 和数据驱动应用程序的评估表明,ARENA 可以提供更好的并行可扩展性,同时减少数据移动 (53.9%)。与当代以计算为中心的并行模型相比,ARENA 可以带来平均 4.37 倍的加速。合成的 CGRA 及其任务调度器仅占用 2.93mm 我们在数据所在的位置动态生成专门的 CGRA 加速器。通过在由快速环网络连接的 CGRA 集群中循环任务令牌来实现将计算带入数据的异步任务,该令牌描述了要为任务执行的数据流图。对跨不同领域的一组 HPC 和数据驱动应用程序的评估表明,ARENA 可以提供更好的并行可扩展性,同时减少数据移动 (53.9%)。与当代以计算为中心的并行模型相比,ARENA 可以带来平均 4.37 倍的加速。合成的 CGRA 及其任务调度器仅占用 2.93mm 在通过快速环网连接的 CGRA 集群之间。对跨不同领域的一组 HPC 和数据驱动应用程序的评估表明,ARENA 可以提供更好的并行可扩展性,同时减少数据移动 (53.9%)。与当代以计算为中心的并行模型相比,ARENA 可以带来平均 4.37 倍的加速。合成的 CGRA 及其任务调度器仅占用 2.93mm 在通过快速环网连接的 CGRA 集群之间。对跨不同领域的一组 HPC 和数据驱动应用程序的评估表明,ARENA 可以提供更好的并行可扩展性,同时减少数据移动 (53.9%)。与当代以计算为中心的并行模型相比,ARENA 可以带来平均 4.37 倍的加速。合成的 CGRA 及其任务调度器仅占用 2.93mm $^2$芯片面积采用45nm制程工艺,运行频率可达800MHz,平均功耗759.8mW。ARENA 还支持多个应用程序的并发执行,为未来的高性能并行计算和数据分析系统提供理想的架构支持。
更新日期:2021-06-04
down
wechat
bug