当前位置: X-MOL 学术arXiv.cs.AR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Benchmarking High Bandwidth Memory on FPGAs
arXiv - CS - Hardware Architecture Pub Date : 2020-05-09 , DOI: arxiv-2005.04324
Zeke Wang, Hongjing Huang, Jie Zhang, Gustavo Alonso

FPGAs are starting to be enhanced with High Bandwidth Memory (HBM) as a way to reduce the memory bandwidth bottleneck encountered in some applications and to give the FPGA more capacity to deal with application state. However, the performance characteristics of HBM are still not well specified, especially in the context of FPGAs. In this paper, we bridge the gap between nominal specifications and actual performance by benchmarkingHBM on a state-of-the-art FPGA, i.e., a Xilinx Alveo U280 featuring a two-stack HBM subsystem. To this end, we propose Shuhai, a benchmarking tool that allows us to demystify all the underlying details of HBM on an FPGA. FPGA-based benchmarking should also provide a more accurate picture of HBM than doing so on CPUs/GPUs, since CPUs/GPUs are noisier systems due to their complex control logic and cache hierarchy. Since the memory itself is complex, leveraging custom hardware logic to benchmark inside an FPGA provides more details as well as accurate and deterministic measurements. We observe that 1) HBM is able to provide up to 425GB/s memory bandwidth, and 2) how HBM is used has a significant impact on performance, which in turn demonstrates the importance of unveiling the performance characteristics of HBM so as to select the best approach. As a yardstick, we also applyShuhaito DDR4to show the differences between HBM and DDR4.Shuhai can be easily generalized to other FPGA boards or other generations of memory, e.g., HBM3, and DDR3. We will makeShuhaiopen-source, benefiting the community

中文翻译:

对 FPGA 上的高带宽存储器进行基准测试

FPGA 开始通过高带宽内存 (HBM) 进行增强,以此来减少某些应用中遇到的内存带宽瓶颈,并为 FPGA 提供更多处理应用状态的能力。然而,HBM 的性能特征仍然没有很好地说明,特别是在 FPGA 的背景下。在本文中,我们通过在最先进的 FPGA(即具有双堆栈 HBM 子系统的 Xilinx Alveo U280)上对 HBM 进行基准测试来缩小标称规格和实际性能之间的差距。为此,我们提出了 Shuhai,这是一种基准测试工具,可让我们揭开 FPGA 上 HBM 的所有底层细节的神秘面纱。基于 FPGA 的基准测试还应该提供比 CPU/GPU 更准确的 HBM 图像,因为 CPU/GPU 由于其复杂的控制逻辑和缓存层次结构而成为噪声更大的系统。由于存储器本身很复杂,利用自定义硬件逻辑在 FPGA 内部进行基准测试可提供更多细节以及准确和确定性的测量。我们观察到 1) HBM 能够提供高达 425GB/s 的内存带宽,以及 2) HBM 的使用方式对性能有显着影响,这反过来又证明了揭示 HBM 的性能特征以选择最好的方法。作为衡量标准,我们还应用树海图DDR4来展示HBM和DDR4之间的差异。树海可以很容易地推广到其他FPGA板或其他代内存,例如HBM3和DDR3。我们将让书海开源,造福社区 我们观察到 1) HBM 能够提供高达 425GB/s 的内存带宽,以及 2) HBM 的使用方式对性能有显着影响,这反过来又证明了揭示 HBM 的性能特征以选择最好的方法。作为衡量标准,我们还应用树海图DDR4来展示HBM和DDR4之间的差异。树海可以很容易地推广到其他FPGA板或其他代内存,例如HBM3和DDR3。我们将让书海开源,造福社区 我们观察到 1) HBM 能够提供高达 425GB/s 的内存带宽,以及 2) HBM 的使用方式对性能有显着影响,这反过来又证明了揭示 HBM 的性能特征以选择最好的方法。作为衡量标准,我们还应用树海图DDR4来展示HBM和DDR4之间的差异。树海可以很容易地推广到其他FPGA板或其他代内存,例如HBM3和DDR3。我们将让书海开源,造福社区 我们还应用 Shuhaito DDR4 来展示 HBM 和 DDR4 之间的差异。 Shuhai 可以很容易地推广到其他 FPGA 板或其他代内存,例如 HBM3 和 DDR3。我们将让书海开源,造福社区 我们还应用 Shuhaito DDR4 来展示 HBM 和 DDR4 之间的差异。 Shuhai 可以很容易地推广到其他 FPGA 板或其他代内存,例如 HBM3 和 DDR3。我们将让书海开源,造福社区
更新日期:2020-05-12
down
wechat
bug