当前位置: X-MOL 学术Cluster Comput. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Task replication to improve the reliability of running workflows on the cloud
Cluster Computing ( IF 4.4 ) Pub Date : 2020-04-27 , DOI: 10.1007/s10586-020-03109-y
Samaneh Sadat Mousavi Nik , Mahmoud Naghibzadeh , Yasser Sedaghat

Clouds are heterogeneous service-oriented systems which are increasingly considered as platforms of choice for scientific workflow applications. Because resource and communication failures are inevitable in large complex distributed systems, insuring the reliability of heterogeneous service-oriented systems poses a major challenge. As it affects the quality of user service requirements, reliability has become an important criterion in workflow scheduling. Replication-based fault-tolerance is one approach for satisfying the requirements set to safeguard the reliability of an application. In order to minimize the workflow execution cost while respecting the user-defined deadline and reliability, the present paper proposes Improving CbCP with Replication (ICR) which includes three algorithms: the Scheduling, the Fix Up, and the Task Replication. The Scheduling employs the CbCP algorithm, where CbCP stands for Clustering based on Critical Parent and it is a previously developed algorithm by the same authors, to generate a schedule map of the workflow. The Fix Up algorithm checks the possibility of starting each task earlier in the leased resource without imposing any extra cost. The Task Replication algorithm utilizes the rest of the idle time slots in leased resources to replicate tasks. Experimental results from real and randomly generated applications at different scales demonstrate that the proposed heuristic, for the majority of studied scenarios, increases the execution reliability of workflows while reducing the workflows execution costs.



中文翻译:

任务复制可提高在云上运行工作流程的可靠性

云是面向服务的异构系统,越来越多地被视为科学工作流应用程序的首选平台。因为在大型复杂的分布式系统中不可避免地发生资源和通信故障,所以确保异构面向服务的系统的可靠性提出了重大挑战。由于它会影响用户服务需求的质量,因此可靠性已成为工作流调度中的重要标准。基于复制的容错是一种满足为保护应用程序可靠性而设置的要求的方法。为了在尊重用户定义的截止日期和可靠性的同时最大程度地减少工作流执行成本,本文提出了使用复制改进CbCP(ICR)的方法,其中包括三种算法:调度,修复和任务复制。计划采用CbCP算法,其中CbCP代表基于关键父级的聚类,它是同一作者先前开发的算法,用于生成工作流程的计划图。修复算法检查在租赁资源中更早启动每个任务的可能性,而无需施加任何额外费用。任务复制算法利用租用资源中的其余空闲时隙来复制任务。来自不同规模的实际和随机生成的应用程序的实验结果表明,对于大多数研究场景,所提出的启发式方法可提高工作流程的执行可靠性,同时降低工作流程的执行成本。其中CbCP表示基于关键父级的聚类,它是同一作者先前开发的算法,用于生成工作流程的时间表。修复算法检查在租赁资源中更早启动每个任务的可能性,而无需施加任何额外费用。任务复制算法利用租用资源中的其余空闲时隙来复制任务。来自不同规模的实际和随机生成的应用程序的实验结果表明,对于大多数研究场景,所提出的启发式方法可提高工作流程的执行可靠性,同时降低工作流程的执行成本。其中CbCP代表基于关键父级的聚类,它是同一作者先前开发的算法,用于生成工作流程的时间表。修复算法检查在租赁资源中更早启动每个任务的可能性,而无需施加任何额外费用。任务复制算法利用租用资源中的其余空闲时隙来复制任务。来自不同规模的实际和随机生成的应用程序的实验结果表明,对于大多数研究场景而言,所提出的启发式方法可提高工作流程的执行可靠性,同时降低工作流程的执行成本。任务复制算法利用租用资源中的其余空闲时隙来复制任务。来自不同规模的实际和随机生成的应用程序的实验结果表明,对于大多数研究场景,所提出的启发式方法可提高工作流程的执行可靠性,同时降低工作流程的执行成本。任务复制算法利用租用资源中的其余空闲时隙来复制任务。来自不同规模的实际和随机生成的应用程序的实验结果表明,对于大多数研究场景而言,所提出的启发式方法可提高工作流程的执行可靠性,同时降低工作流程的执行成本。

更新日期:2020-04-27
down
wechat
bug