当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in Public Cloud
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2021-06-09 , DOI: arxiv-2106.05345
Jashwant Raj Gunasekaran, Cyan Subhra Mishra, Prashanth Thinakaran, Mahmut Taylan Kandemir, Chita R. Das

With a growing demand for adopting ML models for a varietyof application services, it is vital that the frameworks servingthese models are capable of delivering highly accurate predic-tions with minimal latency along with reduced deploymentcosts in a public cloud environment. Despite high latency,prior works in this domain are crucially limited by the accu-racy offered by individual models. Intuitively, model ensem-bling can address the accuracy gap by intelligently combiningdifferent models in parallel. However, selecting the appro-priate models dynamically at runtime to meet the desiredaccuracy with low latency at minimal deployment cost is anontrivial problem. Towards this, we proposeCocktail, a costeffective ensembling-based model serving framework.Cock-tailcomprises of two key components: (i) a dynamic modelselection framework, which reduces the number of modelsin the ensemble, while satisfying the accuracy and latencyrequirements; (ii) an adaptive resource management (RM)framework that employs a distributed proactive autoscalingpolicy combined with importance sampling, to efficiently allo-cate resources for the models. The RM framework leveragestransient virtual machine (VM) instances to reduce the de-ployment cost in a public cloud. A prototype implementationofCocktailon the AWS EC2 platform and exhaustive evalua-tions using a variety of workloads demonstrate thatCocktailcan reduce deployment cost by 1.45x, while providing 2xreduction in latency and satisfying the target accuracy for upto 96% of the requests, when compared to state-of-the-artmodel-serving frameworks.

中文翻译:

鸡尾酒:利用集成学习在公共云中优化模型服务

随着对各种应用程序服务采用 ML 模型的需求不断增长,为这些模型提供服务的框架能够以最小的延迟提供高度准确的预测以及降低公共云环境中的部署成本至关重要。尽管延迟很高,但该领域的先前工作受到各个模型提供的准确性的严重限制。直观地说,模型集成可以通过智能地并行组合不同的模型来解决精度差距。然而,在运行时动态选择合适的模型以最小的部署成本以低延迟满足所需的精度是一个重要的问题。为此,我们提出了 Cocktail,一种具有成本效益的基于集成的模型服务框架。 Cock-tail 由两个关键组件组成:(i)动态模型选择框架,减少了集成中的模型数量,同时满足准确性和延迟要求;(ii) 自适应资源管理 (RM) 框架,该框架采用分布式主动自动缩放策略与重要性采样相结合,为模型有效分配资源。RM 框架利用瞬态虚拟机 (VM) 实例来降低公共云中的部署成本。Cocktail 在 AWS EC2 平台上的原型实现和使用各种工作负载的详尽评估表明,与 state-of 相比,Cocktail 可以将部署成本降低 1.45 倍,同时延迟降低 2 倍并满足高达 96% 的请求的目标准确率-艺术模型服务框架。(ii) 自适应资源管理 (RM) 框架,该框架采用分布式主动自动缩放策略与重要性采样相结合,为模型有效分配资源。RM 框架利用瞬态虚拟机 (VM) 实例来降低公共云中的部署成本。Cocktail 在 AWS EC2 平台上的原型实现和使用各种工作负载的详尽评估表明,与 state-of 相比,Cocktail 可以将部署成本降低 1.45 倍,同时延迟降低 2 倍并满足高达 96% 的请求的目标准确率-艺术模型服务框架。(ii) 自适应资源管理 (RM) 框架,该框架采用分布式主动自动缩放策略与重要性采样相结合,为模型有效分配资源。RM 框架利用瞬态虚拟机 (VM) 实例来降低公共云中的部署成本。Cocktail 在 AWS EC2 平台上的原型实现和使用各种工作负载的详尽评估表明,与 state-of 相比,Cocktail 可以将部署成本降低 1.45 倍,同时延迟降低 2 倍并满足高达 96% 的请求的目标准确率-艺术模型服务框架。RM 框架利用瞬态虚拟机 (VM) 实例来降低公共云中的部署成本。Cocktail 在 AWS EC2 平台上的原型实现和使用各种工作负载的详尽评估表明,与 state-of 相比,Cocktail 可以将部署成本降低 1.45 倍,同时延迟降低 2 倍并满足高达 96% 的请求的目标准确率-艺术模型服务框架。RM 框架利用瞬态虚拟机 (VM) 实例来降低公共云中的部署成本。Cocktail 在 AWS EC2 平台上的原型实现和使用各种工作负载的详尽评估表明,与 state-of 相比,Cocktail 可以将部署成本降低 1.45 倍,同时延迟降低 2 倍并满足高达 96% 的请求的目标准确率-艺术模型服务框架。
更新日期:2021-06-11
down
wechat
bug