当前位置: X-MOL 学术ACM Trans. Comput. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Designing Future Warehouse-Scale Computers for Sirius, an End-to-End Voice and Vision Personal Assistant
ACM Transactions on Computer Systems ( IF 1.5 ) Pub Date : 2016-04-07 , DOI: 10.1145/2870631
Johann Hauswald 1 , Michael A. Laurenzano 1 , Yunqi Zhang 1 , Hailong Yang 1 , Yiping Kang 1 , Cheng Li 1 , Austin Rovinski 1 , Arjun Khurana 1 , Ronald G. Dreslinski 1 , Trevor Mudge 1 , Vinicius Petrucci 1 , Lingjia Tang 1 , Jason Mars 1
Affiliation  

As user demand scales for intelligent personal assistants (IPAs) such as Apple’s Siri, Google’s Google Now, and Microsoft’s Cortana, we are approaching the computational limits of current datacenter (DC) architectures. It is an open question how future server architectures should evolve to enable this emerging class of applications, and the lack of an open-source IPA workload is an obstacle in addressing this question. In this article, we present the design of Sirius, an open end-to-end IPA Web-service application that accepts queries in the form of voice and images, and responds with natural language. We then use this workload to investigate the implications of four points in the design space of future accelerator-based server architectures spanning traditional CPUs, GPUs, manycore throughput co-processors, and FPGAs. To investigate future server designs for Sirius, we decompose Sirius into a suite of eight benchmarks (Sirius Suite) comprising the computationally intensive bottlenecks of Sirius. We port Sirius Suite to a spectrum of accelerator platforms and use the performance and power trade-offs across these platforms to perform a total cost of ownership (TCO) analysis of various server design points. In our study, we find that accelerators are critical for the future scalability of IPA services. Our results show that GPU- and FPGA-accelerated servers improve the query latency on average by 8.5× and 15×, respectively. For a given throughput, GPU- and FPGA-accelerated servers can reduce the TCO of DCs by 2.3× and 1.3×, respectively.

中文翻译:

为端到端语音和视觉个人助理 Sirius 设计未来的仓库规模计算机

随着用户对智能个人助理 (IPA)(例如 Apple 的 Siri、Google 的 Google Now 和 Microsoft 的 Cortana)的需求不断扩大,我们正在接近当前数据中心 (DC) 架构的计算极限。未来的服务器架构应该如何发展以支持这类新兴应用程序,这是一个悬而未决的问题,而缺乏开源 IPA 工作负载是解决这个问题的障碍。在本文中,我们介绍了 Sirius 的设计,这是一个开放的端到端 IPA Web 服务应用程序,它接受语音和图像形式的查询,并以自然语言进行响应。然后,我们使用此工作负载来研究未来基于加速器的服务器架构的设计空间中的四个点的影响,这些架构跨越传统 CPU、GPU、众核吞吐量协处理器和 FPGA。为了研究 Sirius 的未来服务器设计,我们将 Sirius 分解为一套包含 Sirius 计算密集型瓶颈的八个基准(Sirius Suite)。我们将 Sirius Suite 移植到一系列加速器平台,并使用这些平台之间的性能和功耗权衡来对各种服务器设计点执行总体拥有成本 (TCO) 分析。在我们的研究中,我们发现加速器对于 IPA 服务的未来可扩展性至关重要。我们的结果表明,GPU 和 FPGA 加速的服务器将查询延迟平均分别提高了 8.5 倍和 15 倍。对于给定的吞吐量,GPU 和 FPGA 加速的服务器可以将数据中心的 TCO 分别降低 2.3 倍和 1.3 倍。我们将 Sirius 分解为一套八个基准(Sirius Suite),包括 Sirius 的计算密集型瓶颈。我们将 Sirius Suite 移植到一系列加速器平台,并使用这些平台之间的性能和功耗权衡来对各种服务器设计点执行总体拥有成本 (TCO) 分析。在我们的研究中,我们发现加速器对于 IPA 服务的未来可扩展性至关重要。我们的结果表明,GPU 和 FPGA 加速的服务器将查询延迟平均分别提高了 8.5 倍和 15 倍。对于给定的吞吐量,GPU 和 FPGA 加速的服务器可以将数据中心的 TCO 分别降低 2.3 倍和 1.3 倍。我们将 Sirius 分解为一套八个基准(Sirius Suite),包括 Sirius 的计算密集型瓶颈。我们将 Sirius Suite 移植到一系列加速器平台,并使用这些平台之间的性能和功耗权衡来对各种服务器设计点执行总体拥有成本 (TCO) 分析。在我们的研究中,我们发现加速器对于 IPA 服务的未来可扩展性至关重要。我们的结果表明,GPU 和 FPGA 加速的服务器将查询延迟平均分别提高了 8.5 倍和 15 倍。对于给定的吞吐量,GPU 和 FPGA 加速的服务器可以将数据中心的 TCO 分别降低 2.3 倍和 1.3 倍。我们将 Sirius Suite 移植到一系列加速器平台,并使用这些平台之间的性能和功耗权衡来对各种服务器设计点执行总体拥有成本 (TCO) 分析。在我们的研究中,我们发现加速器对于 IPA 服务的未来可扩展性至关重要。我们的结果表明,GPU 和 FPGA 加速的服务器将查询延迟平均分别提高了 8.5 倍和 15 倍。对于给定的吞吐量,GPU 和 FPGA 加速的服务器可以将数据中心的 TCO 分别降低 2.3 倍和 1.3 倍。我们将 Sirius Suite 移植到一系列加速器平台,并使用这些平台之间的性能和功耗权衡来对各种服务器设计点执行总体拥有成本 (TCO) 分析。在我们的研究中,我们发现加速器对于 IPA 服务的未来可扩展性至关重要。我们的结果表明,GPU 和 FPGA 加速的服务器将查询延迟平均分别提高了 8.5 倍和 15 倍。对于给定的吞吐量,GPU 和 FPGA 加速的服务器可以将数据中心的 TCO 分别降低 2.3 倍和 1.3 倍。
更新日期:2016-04-07
down
wechat
bug