当前位置: X-MOL 学术arXiv.cs.DC › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Multiverse: Dynamic VM Provisioning for Virtualized High Performance Computing Clusters
arXiv - CS - Distributed, Parallel, and Cluster Computing Pub Date : 2020-06-22 , DOI: arxiv-2006.12560
Jashwant Raj Gunasekaran, Michael Cui, Prashanth Thinakaran, Josh Simons, Mahmut Taylan Kandemir and Chita R. Das

Traditionally, HPC workloads have been deployed in bare-metal clusters; but the advances in virtualization have led the pathway for these workloads to be deployed in virtualized clusters. However, HPC cluster administrators/providers still face challenges in terms of resource elasticity and virtual machine (VM) provisioning at large-scale, due to the lack of coordination between a traditional HPC scheduler and the VM hypervisor (resource management layer). This lack of interaction leads to low cluster utilization and job completion throughput. Furthermore, the VM provisioning delays directly impact the overall performance of jobs in the cluster. Hence, there is a need for effectively provisioning virtualized HPC clusters, which can best-utilize the physical hardware with minimal provisioning overheads. Towards this, we propose Multiverse, a VM provisioning framework, which can dynamically spawn VMs for incoming jobs in a virtualized HPC cluster, by integrating the HPC scheduler along with VM resource manager. We have implemented this framework on the Slurm} scheduler along with the vSphere VM resource manager. In order to reduce the VM provisioning overheads, we use instant cloning which shares both the disk and memory with the parent VM, when compared to full VM cloning which has to boot-up a new VM from scratch. Measurements with real-world HPC workloads demonstrate that, instant cloning is 2.5x faster than full cloning in terms of VM provisioning time. Further, it improves resource utilization by up to 40%, and cluster throughput by up to 1.5x, when compared to full clone for bursty job arrival scenarios.

中文翻译:

Multiverse:虚拟化高性能计算集群的动态 VM 配置

传统上,HPC 工作负载部署在裸机集群中;但是虚拟化的进步为将这些工作负载部署在虚拟化集群中开辟了道路。然而,由于传统 HPC 调度程序和 VM 管理程序(资源管理层)之间缺乏协调,HPC 集群管理员/提供商在资源弹性和大规模虚拟机 (VM) 配置方面仍然面临挑战。这种缺乏交互导致集群利用率和作业完成吞吐量低。此外,VM 配置延迟直接影响集群中作业的整体性能。因此,需要有效地配置虚拟化 HPC 集群,以最小的配置开销充分利用物理硬件。为此,我们建议 Multiverse,一个 VM 配置框架,它可以通过将 HPC 调度程序与 VM 资源管理器集成在一起,为虚拟化 HPC 集群中的传入作业动态生成 VM。我们已经在 Slurm} 调度器和 vSphere 虚拟机资源管理器上实现了这个框架。为了减少 VM 配置开销,与必须从头启动新 VM 的完整 VM 克隆相比,我们使用即时克隆与父 VM 共享磁盘和内存。对实际 HPC 工作负载的测量表明,就 VM 配置时间而言,即时克隆比完全克隆快 2.5 倍。此外,与突发作业到达场景的完整克隆相比,它可将资源利用率提高多达 40%,集群吞吐量提高多达 1.5 倍。通过将 HPC 调度程序与 VM 资源管理器集成,它可以为虚拟化 HPC 集群中的传入作业动态生成 VM。我们已经在 Slurm} 调度器和 vSphere 虚拟机资源管理器上实现了这个框架。为了减少 VM 配置开销,与必须从头启动新 VM 的完整 VM 克隆相比,我们使用即时克隆与父 VM 共享磁盘和内存。对实际 HPC 工作负载的测量表明,就 VM 配置时间而言,即时克隆比完全克隆快 2.5 倍。此外,与突发作业到达场景的完整克隆相比,它可将资源利用率提高多达 40%,集群吞吐量提高多达 1.5 倍。通过将 HPC 调度程序与 VM 资源管理器集成,它可以为虚拟化 HPC 集群中的传入作业动态生成 VM。我们已经在 Slurm} 调度器和 vSphere 虚拟机资源管理器上实现了这个框架。为了减少 VM 配置开销,与必须从头启动新 VM 的完整 VM 克隆相比,我们使用即时克隆与父 VM 共享磁盘和内存。对实际 HPC 工作负载的测量表明,就 VM 配置时间而言,即时克隆比完全克隆快 2.5 倍。此外,与突发作业到达场景的完整克隆相比,它可将资源利用率提高多达 40%,集群吞吐量提高多达 1.5 倍。我们已经在 Slurm} 调度器和 vSphere 虚拟机资源管理器上实现了这个框架。为了减少 VM 配置开销,与必须从头启动新 VM 的完整 VM 克隆相比,我们使用即时克隆与父 VM 共享磁盘和内存。对实际 HPC 工作负载的测量表明,就 VM 配置时间而言,即时克隆比完全克隆快 2.5 倍。此外,与突发作业到达场景的完整克隆相比,它可将资源利用率提高多达 40%,集群吞吐量提高多达 1.5 倍。我们已经在 Slurm} 调度器和 vSphere 虚拟机资源管理器上实现了这个框架。为了减少 VM 配置开销,与必须从头启动新 VM 的完整 VM 克隆相比,我们使用即时克隆与父 VM 共享磁盘和内存。对实际 HPC 工作负载的测量表明,就 VM 配置时间而言,即时克隆比完全克隆快 2.5 倍。此外,与突发作业到达场景的完整克隆相比,它可将资源利用率提高多达 40%,集群吞吐量提高多达 1.5 倍。与必须从头启动新 VM 的完整 VM 克隆相比。对实际 HPC 工作负载的测量表明,就 VM 配置时间而言,即时克隆比完全克隆快 2.5 倍。此外,与突发作业到达场景的完整克隆相比,它可将资源利用率提高多达 40%,集群吞吐量提高多达 1.5 倍。与必须从头启动新 VM 的完整 VM 克隆相比。对实际 HPC 工作负载的测量表明,就 VM 配置时间而言,即时克隆比完全克隆快 2.5 倍。此外,与突发作业到达场景的完整克隆相比,它可将资源利用率提高多达 40%,集群吞吐量提高多达 1.5 倍。
更新日期:2020-06-24
down
wechat
bug