当前位置: X-MOL 学术Biol. Direct › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Massive metagenomic data analysis using abundance-based machine learning.
Biology Direct ( IF 5.5 ) Pub Date : 2019-08-01 , DOI: 10.1186/s13062-019-0242-0
Zachary N Harris 1 , Eliza Dhungel 2 , Matthew Mosior 2 , Tae-Hyuk Ahn 2, 3
Affiliation  

BACKGROUND Metagenomics is the application of modern genomic techniques to investigate the members of a microbial community directly in their natural environments and is widely used in many studies to survey the communities of microbial organisms that live in diverse ecosystems. In order to understand the metagenomic profile of one of the densest interaction spaces for millions of people, the public transit system, the MetaSUB international Consortium has collected and sequenced metagenomes from subways of different cities across the world. In collaboration with CAMDA, MetaSUB has made the metagenomic samples from these cities available for an open challenge of data analysis including, but not limited in scope to, the identification of unknown samples. RESULTS To distinguish the metagenomic profiling among different cities and also predict unknown samples precisely based on the profiling, two different approaches are proposed using machine learning techniques; one is a read-based taxonomy profiling of each sample and prediction method, and the other is a reduced representation assembly-based method. Among various machine learning techniques tested, the random forest technique showed promising results as a suitable classifier for both approaches. Random forest models developed from read-based taxonomic profiling could achieve an accuracy of 91% with 95% confidence interval between 80 and 93%. The assembly-based random forest model prediction also reached 90% accuracy. However, both models achieved roughly the same accuracy on the testing test, whereby they both failed to predict the most abundant label. CONCLUSION Our results suggest that both read-based and assembly-based approaches are powerful tools for the analysis of metagenomics data. Moreover, our results suggest that reduced representation assembly-based methods are able to simultaneous provide high-accuracy prediction on available data. Overall, we show that metagenomic samples can be traced back to their location with careful generation of features from the composition of microbes and utilizing existing machine learning algorithms. Proposed approaches show high accuracy of prediction, but require careful inspection before making any decisions due to sample noise or complexity. REVIEWERS This article was reviewed by Eugene V. Koonin, Jing Zhou and Serghei Mangul.

中文翻译:

使用基于丰度的机器学习进行大规模宏基因组数据分析。

背景技术元基因组学是现代基因组技术的应用,用于直接在自然环境中调查微生物群落的成员,并且在许多研究中广泛用于调查生活在不同生态系统中的微生物群落。为了了解数百万人口中最密集的互动空间之一的公共交通系统的宏基因组学特征,MetaSUB国际协会从世界各地不同城市的地铁中收集并测序了基因组。与CAMDA合作,MetaSUB已将这些城市的宏基因组样本提供给数据分析的公开挑战,包括但不限于识别未知样本。结果为了区分不同城市之间的宏基因组分析,并基于该分析精确预测未知样本,使用机器学习技术提出了两种不同的方法:一个是每个样本和预测方法的基于读取的分类法分析,另一个是基于简化表示法的基于装配的方法。在测试的各种机器学习技术中,随机森林技术作为两种方法的合适分类器均显示出令人鼓舞的结果。从基于阅读的分类学分析开发的随机森林模型可以达到91%的准确度,其中95%的置信区间介于80%和93%之间。基于集合的随机森林模型预测也达到了90%的准确性。但是,两个模型在测试测试中都达到了大致相同的精度,因此他们俩都无法预测最丰富的标签。结论我们的结果表明基于读取的方法和基于汇编的方法都是用于宏基因组学数据分析的强大工具。此外,我们的结果表明,基于简化表示的基于装配的方法能够同时对可用数据提供高精度的预测。总体而言,我们显示宏基因组样本可以通过微生物成分的精心生成并利用现有的机器学习算法追溯到其位置。提议的方法显示出较高的预测准确性,但是由于样本噪声或复杂性,在做出任何决定之前需要仔细检查。审阅者本文由Eugene V. Koonin,Jing Zhou和Serghei Mangul审阅。结论我们的结果表明基于读取的方法和基于汇编的方法都是用于宏基因组学数据分析的强大工具。此外,我们的结果表明,基于简化表示法的基于装配的方法能够同时对可用数据提供高精度的预测。总体而言,我们表明宏基因组学样本可以通过微生物成分的仔细生成以及利用现有机器学习算法追溯到其位置。提议的方法显示出较高的预测准确性,但是由于样本噪声或复杂性,在做出任何决定之前需要仔细检查。审阅者本文由Eugene V. Koonin,Jing Zhou和Serghei Mangul审阅。结论我们的结果表明基于读取的方法和基于汇编的方法都是用于宏基因组学数据分析的强大工具。此外,我们的结果表明,基于简化表示的基于装配的方法能够同时对可用数据提供高精度的预测。总体而言,我们表明宏基因组学样本可以通过微生物成分的仔细生成以及利用现有机器学习算法追溯到其位置。提议的方法显示出较高的预测准确性,但是由于样本噪声或复杂性,在做出任何决定之前需要仔细检查。审阅者本文由Eugene V. Koonin,Jing Zhou和Serghei Mangul审阅。我们的结果表明,基于简化表示形式的基于装配的方法能够同时对可用数据提供高精度的预测。总体而言,我们表明宏基因组学样本可以通过微生物成分的仔细生成以及利用现有机器学习算法追溯到其位置。提议的方法显示出较高的预测准确性,但是由于样本噪声或复杂性,在做出任何决定之前需要仔细检查。审阅者本文由Eugene V. Koonin,Jing Zhou和Serghei Mangul审阅。我们的结果表明,基于简化表示形式的基于装配的方法能够同时对可用数据提供高精度的预测。总体而言,我们表明宏基因组学样本可以通过微生物成分的仔细生成以及利用现有机器学习算法追溯到其位置。提议的方法显示出较高的预测准确性,但是由于样本噪声或复杂性,在做出任何决定之前需要仔细检查。审阅者本文由Eugene V. Koonin,Jing Zhou和Serghei Mangul审阅。我们表明,宏基因组样本可以通过微生物成分的仔细生成以及利用现有的机器学习算法追溯到它们的位置。提议的方法显示出较高的预测准确性,但是由于样本噪声或复杂性,在做出任何决定之前需要仔细检查。审阅者本文由Eugene V. Koonin,Jing Zhou和Serghei Mangul审阅。我们表明,宏基因组样本可以通过微生物成分的仔细生成以及利用现有的机器学习算法追溯到它们的位置。提议的方法显示出较高的预测准确性,但是由于样本噪声或复杂性,在做出任何决定之前需要仔细检查。审阅者本文由Eugene V. Koonin,Jing Zhou和Serghei Mangul审阅。
更新日期:2020-04-22
down
wechat
bug