当前位置: X-MOL 学术ACM Trans. Des. Autom. Electron. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
COPE
ACM Transactions on Design Automation of Electronic Systems ( IF 1.4 ) Pub Date : 2020-12-31 , DOI: 10.1145/3428149
Dipika Deb 1 , John Jose 1 , Maurizio Palesi 2
Affiliation  

Prefetching helps in reducing the memory access latency in multi-banked NUCA architecture, where the Last Level Cache (LLC) is shared. In such systems, an application running on core generates significant traffic on the shared resources, the underlying network and LLC. While prefetching helps to increase application performance, but an inaccurate prefetcher can cause harm by generating unwanted traffic that additionally increases network and LLC contention. Increased network contention results in untimely prefetching of cache blocks, thereby reducing the effectiveness of a prefetcher. Prefetch accuracy is extensively used to reduce unwanted prefetches that can mitigate the prefetcher caused contention. However, the conventional prefetch accuracy parameter has major limitations in NUCA architectures. The article exposes that prefetch accuracy can create two major false-positive cases of prefetching, Under-estimation and Over-estimation problems, and false feedback loop that can mislead a prefetcher in generating more unwanted traffic. We propose a novel technique, Coordinated Prefetching for Efficient (COPE), which addresses these issues by redefining prefetch accuracy for such architectures and identifies additional parameters that can avoid generating unwanted prefetch requests. Experiment conducted using PARSEC benchmark on a 64-core system shows that COPE achieve 3% reduction in L1 cache miss rate, 12.64% improvement in IPC, 23.2% reduction in average packet latency and 18.56% reduction in dynamic power consumption of the underlying network.

中文翻译:

应付

在共享最后一级缓存 (LLC) 的多组 NUCA 架构中,预取有助于减少内存访问延迟。在此类系统中,在核心上运行的应用程序会在共享资源、底层网络和 LLC 上产生大量流量。虽然预取有助于提高应用程序性能,但不准确的预取器会产生有害流量,进而增加网络和 LLC 争用,从而造成损害。增加的网络争用导致不及时预取缓存块,从而降低预取器的有效性。预取准确度被广泛用于减少不需要的预取,这可以减轻预取器引起的争用。然而,传统的预取精度参数在 NUCA 架构中有很大的局限性。这篇文章揭示了预取的准确性会产生两种主要的预取误报情况,即低估和高估问题,以及可能误导预取器产生更多不需要的流量的错误反馈循环。我们提出了一种新技术,即高效的协调预取 (COPE),它通过重新定义此类架构的预取精度并识别可以避免生成不需要的预取请求的附加参数来解决这些问题。在 64 核系统上使用 PARSEC 基准进行的实验表明,COPE 实现了 L1 缓存未命中率降低 3%、IPC 提高 12.64%、平均数据包延迟降低 23.2% 和底层网络动态功耗降低 18.56%。错误的反馈循环会误导预取器生成更多不需要的流量。我们提出了一种新技术,即高效的协调预取 (COPE),它通过重新定义此类架构的预取精度并识别可以避免生成不需要的预取请求的附加参数来解决这些问题。在 64 核系统上使用 PARSEC 基准进行的实验表明,COPE 实现了 L1 缓存未命中率降低 3%、IPC 提高 12.64%、平均数据包延迟降低 23.2% 和底层网络动态功耗降低 18.56%。错误的反馈循环会误导预取器生成更多不需要的流量。我们提出了一种新技术,即高效的协调预取 (COPE),它通过重新定义此类架构的预取精度并识别可以避免生成不需要的预取请求的附加参数来解决这些问题。在 64 核系统上使用 PARSEC 基准进行的实验表明,COPE 实现了 L1 缓存未命中率降低 3%、IPC 提高 12.64%、平均数据包延迟降低 23.2% 和底层网络动态功耗降低 18.56%。它通过重新定义此类架构的预取准确性来解决这些问题,并确定可以避免生成不需要的预取请求的其他参数。在 64 核系统上使用 PARSEC 基准进行的实验表明,COPE 实现了 L1 缓存未命中率降低 3%、IPC 提高 12.64%、平均数据包延迟降低 23.2% 和底层网络动态功耗降低 18.56%。它通过重新定义此类架构的预取准确性来解决这些问题,并确定可以避免生成不需要的预取请求的其他参数。在 64 核系统上使用 PARSEC 基准进行的实验表明,COPE 实现了 L1 缓存未命中率降低 3%、IPC 提高 12.64%、平均数据包延迟降低 23.2% 和底层网络动态功耗降低 18.56%。
更新日期:2020-12-31
down
wechat
bug