当前位置: X-MOL 学术Big Data Res. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Hadoop MapReduce Performance on SSDs for Analyzing Social Networks
Big Data Research ( IF 3.5 ) Pub Date : 2017-07-13 , DOI: 10.1016/j.bdr.2017.06.001
M. Bakratsas , P. Basaras , D. Katsaros , L. Tassiulas

The advent of Solid State Drives (SSDs) stimulated a lot of research to investigate and exploit to the extent possible the potentials of the new drive. The focus of this work is on the investigation of the relative performance and benefits of SSDs versus hard disk drives (HDDs) when they are used as underlying storage for Hadoop's MapReduce. In particular, we depart from all earlier relevant works in that we do not use their workloads, but examine MapReduce tasks and data suitable for performing analysis of complex networks which present different execution patterns. Despite the plethora of algorithms and implementations for complex network analysis, we carefully selected our “benchmarking methods” so that they include methods that perform both local and network-wide operations in a complex network, and also they are generic enough in the sense that they can be used as primitives for more sophisticated network processing applications. We evaluated the performance of SSDs and HDDs by executing these algorithms on real social network data and excluding the effects of network bandwidth which can severely bias the results. The obtained results confirmed in part earlier studies which showed that SSDs are beneficial to Hadoop. However, we also provided solid evidence that the processing pattern of the running application has a significant role, and thus future studies must not blindly add SSDs to Hadoop, but they should build components for assessing the type of processing pattern of the application and then direct the data to the appropriate storage medium.



中文翻译:

用于分析社交网络的SSD上的Hadoop MapReduce性能

固态硬盘(SSD)的出现激发了很多研究,以尽可能地研究和开发新硬盘的潜力。这项工作的重点是研究SSD用作Hadoop MapReduce的基础存储时与硬盘驱动器(HDD)的相对性能和优势。特别是,我们不使用所有先前的相关工作,因为我们不使用它们的工作量,而是检查MapReduce任务和适合执行复杂网络分析的数据,这些网络呈现了不同的执行模式。尽管进行复杂网络分析的算法和实现方法过多,但我们还是精心选择了“基准测试方法”,以便它们包括在复杂网络中执行本地和网络范围内的操作的方法,从某种意义上说,它们可以用作更复杂的网络处理应用程序的原语,因此它们足够通用。我们通过对真实的社交网络数据执行这些算法,并排除了可能严重影响结果的网络带宽影响,从而评估了SSD和HDD的性能。获得的结果在较早的部分研究中得到了证实,这些研究表明SSD对Hadoop有益。但是,我们还提供了有力的证据,表明正在运行的应用程序的处理模式具有重要作用,因此,将来的研究一定不能盲目地将SSD添加到Hadoop,而应建立评估应用程序处理模式类型的组件,然后直接进行处理。将该数据存储到适当的存储介质中。我们通过对真实的社交网络数据执行这些算法,并排除了可能严重影响结果的网络带宽影响,评估了SSD和HDD的性能。获得的结果在较早的部分研究中得到了证实,这些研究表明SSD对Hadoop有益。但是,我们还提供了有力的证据,表明正在运行的应用程序的处理模式具有重要作用,因此,将来的研究一定不能盲目地将SSD添加到Hadoop,而应建立评估应用程序处理模式类型的组件,然后直接进行处理。将该数据存储到适当的存储介质中。我们通过对真实的社交网络数据执行这些算法,并排除了可能严重影响结果的网络带宽影响,评估了SSD和HDD的性能。获得的结果在较早的部分研究中得到了证实,这些研究表明SSD对Hadoop有益。但是,我们还提供了有力的证据,表明正在运行的应用程序的处理模式具有重要作用,因此,将来的研究一定不能盲目地将SSD添加到Hadoop,而应建立评估应用程序处理模式类型的组件,然后直接进行处理。将该数据存储到适当的存储介质中。获得的结果在较早的部分研究中得到了证实,这些研究表明SSD对Hadoop有益。但是,我们还提供了有力的证据,表明正在运行的应用程序的处理模式具有重要作用,因此,将来的研究一定不能盲目地将SSD添加到Hadoop,而应建立评估应用程序处理模式类型的组件,然后直接进行处理。将该数据存储到适当的存储介质中。获得的结果在较早的部分研究中得到了证实,这些研究表明SSD对Hadoop有益。但是,我们还提供了有力的证据,表明正在运行的应用程序的处理模式具有重要作用,因此,将来的研究一定不能盲目地将SSD添加到Hadoop,而应建立评估应用程序处理模式类型的组件,然后直接进行处理。将该数据存储到适当的存储介质中。

更新日期:2017-07-13
down
wechat
bug