当前位置: X-MOL 学术Int. J. Comput. Sci. Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Forecasting network throughput of remote data access in computing grids
Journal of Computational Science ( IF 3.3 ) Pub Date : 2020-06-15 , DOI: 10.1016/j.jocs.2020.101158
Volodimir Begy , Martin Barisits , Mario Lassnig , Erich Schikuta

Computing grids are key enablers of computational science. Researchers from many fields (High Energy Physics, Bioinformatics, Climatology, etc.) employ grids for execution of distributed computational jobs. These computing workloads are typically data-intensive. The current state of the art approach for data access in grids is data placement: a job is scheduled to run at a specific data center, and its execution commences only once the complete input data has been transferred there. An alternative approach is remote data access: a job may stream the input data directly from arbitrary storage elements. Remote data access brings two innovative benefits: (1) the jobs can be executed asynchronously with respect to the data transfer; (2) when combined with data placement on the policy level, it can aid in the optimization of the network load, since these two data access methodologies partially exhibit nonoverlapping bottlenecks. However, in order to employ this technique systematically, the properties of its network throughput need to be studied carefully. This paper presents experimentally identified parameters of remote data access throughput, statistically tested formalization of these parameters and a derived throughput forecasting model. The model is applicable to large computing workloads, robust with respect to arbitrary dynamic changes in the grid infrastructure and exhibits a long-term prediction horizon. Its purpose is to assist various stakeholders of the grid in decision-making related to data access patterns. This work is based on measurements taken on the Worldwide LHC Computing Grid at CERN.



中文翻译:

预测计算网格中远程数据访问的网络吞吐量

计算网格是计算科学的关键推动力。来自许多领域(高能物理,生物信息学,气候学等)的研究人员采用网格来执行分布式计算任务。这些计算工作负载通常是数据密集型的。网格中数据访问的最新方法是数据放置:计划在特定的数据中心运行作业,并且仅在将完整的输入数据传输到那里后才开始执行。一种替代方法是远程数据访问:作业可以直接从任意存储元素流式传输输入数据。远程数据访问带来两个创新的好处:(1)作业可以相对于数据传输异步执行;(2)与策略级别的数据放置结合使用时,可以帮助优化网络负载,因为这两种数据访问方法部分表现出不重叠的瓶颈。但是,为了系统地使用此技术,需要仔细研究其网络吞吐量的属性。本文介绍了实验确定的远程数据访问吞吐量的参数,经过统计检验的这些参数的形式化以及派生的吞吐量预测模型。该模型适用于大型计算工作负载,相对于网格基础架构中的任意动态变化具有鲁棒性,并且具有长期的预测范围。其目的是协助网格的各个利益相关者进行与数据访问模式有关的决策。这项工作基于CERN在全球LHC计算网格上进行的测量。但是,为了系统地使用此技术,需要仔细研究其网络吞吐量的属性。本文介绍了实验确定的远程数据访问吞吐量的参数,经过统计检验的这些参数的形式化以及派生的吞吐量预测模型。该模型适用于大型计算工作负载,相对于网格基础架构中的任意动态变化具有鲁棒性,并且具有长期的预测范围。其目的是协助网格的各个利益相关者进行与数据访问模式有关的决策。这项工作基于CERN在全球LHC计算网格上进行的测量。但是,为了系统地使用此技术,需要仔细研究其网络吞吐量的属性。本文介绍了实验确定的远程数据访问吞吐量的参数,经过统计检验的这些参数的形式化以及派生的吞吐量预测模型。该模型适用于大型计算工作负载,相对于网格基础架构中的任意动态变化具有鲁棒性,并且具有长期的预测范围。其目的是协助网格的各个利益相关者进行与数据访问模式有关的决策。这项工作基于CERN在全球LHC计算网格上进行的测量。本文介绍了实验确定的远程数据访问吞吐量的参数,经过统计检验的这些参数的形式化以及派生的吞吐量预测模型。该模型适用于大型计算工作负载,相对于网格基础架构中的任意动态变化具有鲁棒性,并且具有长期的预测范围。其目的是协助网格的各个利益相关者进行与数据访问模式有关的决策。这项工作基于CERN在全球LHC计算网格上进行的测量。本文介绍了实验确定的远程数据访问吞吐量的参数,经过统计检验的这些参数的形式化以及派生的吞吐量预测模型。该模型适用于大型计算工作负载,相对于网格基础架构中的任意动态变化具有鲁棒性,并且具有长期的预测范围。其目的是协助网格的各个利益相关者进行与数据访问模式有关的决策。这项工作基于CERN在全球LHC计算网格上进行的测量。相对于网格基础架构中的任意动态变化而言,具有很强的鲁棒性,并且具有长期的预测范围。其目的是协助网格的各个利益相关者进行与数据访问模式有关的决策。这项工作基于CERN在全球LHC计算网格上进行的测量。相对于网格基础架构中的任意动态变化而言都非常强大,并且具有长期的预测范围。其目的是协助网格的各个利益相关者进行与数据访问模式有关的决策。这项工作基于CERN在全球LHC计算网格上进行的测量。

更新日期:2020-06-15
down
wechat
bug