当前位置: X-MOL 学术IEEE ACM Trans. Netw. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Resolvable Designs for Speeding Up Distributed Computing
IEEE/ACM Transactions on Networking ( IF 3.7 ) Pub Date : 2020-05-29 , DOI: 10.1109/tnet.2020.2992989
Konstantinos Konstantinidis , Aditya Ramamoorthy

Distributed computing frameworks such as MapReduce are often used to process large computational jobs. They operate by partitioning each job into smaller tasks executed on different servers. The servers also need to exchange intermediate values to complete the computation. Experimental evidence suggests that this so-called Shuffle phase can be a significant part of the overall execution time for several classes of jobs. Prior work has demonstrated a natural tradeoff between computation and communication whereby running redundant copies of jobs can reduce the Shuffle traffic load, thereby leading to reduced overall execution times. For a single job, the main drawback of this approach is that it requires the original job to be split into a number of files that grows exponentially in the system parameters. When extended to multiple jobs (with specific function types), these techniques suffer from a limitation of a similar flavor, i.e., they require an exponentially large number of jobs to be executed. In practical scenarios, these requirements can significantly reduce the promised gains of the method. In this work, we show that a class of combinatorial structures called resolvable designs can be used to develop efficient coded distributed computing schemes for both the single and multiple job scenarios considered in prior work. We present both theoretical analysis and exhaustive experimental results (on Amazon EC2 clusters) that demonstrate the performance advantages of our method. For the single and multiple job cases, we obtain speed-ups of 4.69x (and 2.6x over prior work) and 4.31x over the baseline approach, respectively.

中文翻译:

加快分布式计算速度的可解析设计

诸如MapReduce之类的分布式计算框架通常用于处理大型计算任务。他们通过将每个作业划分为在不同服务器上执行的较小任务来进行操作。服务器还需要交换中间值以完成计算。实验证据表明,对于几类作业,此所谓的随机播放阶段可能是整个执行时间的重要部分。先前的工作已经证明了在计算和通信之间进行自然的权衡取舍,从而运行冗余的作业副本可以减少Shuffle的通信量,从而减少总体执行时间。对于单个作业,此方法的主要缺点是需要将原始作业拆分为多个文件,这些文件在系统参数中呈指数增长。当将这些技术扩展到多个作业(具有特定的功能类型)时,它们会受到类似风格的局限,即它们需要执行指数级的大量作业。在实际情况下,这些要求可能会大大降低该方法的预期收益。在这项工作中,我们表明,可以使用一类称为可解析设计的组合结构来为先前工作中考虑的单个和多个作业场景开发有效的编码分布式计算方案。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。这些技术受到类似风格的局限,即,它们需要执行指数级的大量工作。在实际情况下,这些要求会大大降低该方法的预期收益。在这项工作中,我们表明,可以使用一类称为可解析设计的组合结构来为先前工作中考虑的单个和多个作业场景开发有效的编码分布式计算方案。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。这些技术受到类似风格的局限,即,它们需要执行指数级的大量工作。在实际情况下,这些要求可能会大大降低该方法的预期收益。在这项工作中,我们表明,可以使用一类称为可解析设计的组合结构来为先前工作中考虑的单个和多个作业场景开发有效的编码分布式计算方案。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。他们需要大量的工作来执行。在实际情况下,这些要求可能会大大降低该方法的预期收益。在这项工作中,我们表明可以使用一类称为可解析设计的组合结构来为先前工作中考虑的单个和多个作业场景开发有效的编码分布式计算方案。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。他们需要大量的工作来执行。在实际情况下,这些要求会大大降低该方法的预期收益。在这项工作中,我们表明,可以使用一类称为可解析设计的组合结构来为先前工作中考虑的单个和多个作业场景开发有效的编码分布式计算方案。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。在这项工作中,我们表明,可以使用一类称为可解析设计的组合结构来为先前工作中考虑的单个和多个作业场景开发有效的编码分布式计算方案。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单工和多工的情况,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。在这项工作中,我们表明,可以使用一类称为可解析设计的组合结构来为先前工作中考虑的单个和多个作业场景开发有效的编码分布式计算方案。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。我们同时提供了理论分析和详尽的实验结果(在Amazon EC2集群上),证明了我们方法的性能优势。对于单个和多个工作案例,我们分别获得了4.69倍的速度提升(和先前工作相比提高了2.6倍),并且比基准方法提高了4.31倍。
更新日期:2020-05-29
down
wechat
bug