当前位置: X-MOL 学术J. Bioinform. Comput. Biol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Scalable classification of organisms into a taxonomy using hierarchical supervised learners
Journal of Bioinformatics and Computational Biology ( IF 1 ) Pub Date : 2020-06-12 , DOI: 10.1142/s0219720020500262
Gihad N Sohsah 1 , Ali Reza Ibrahimzada 1 , Huzeyfe Ayaz 1 , Ali Cakmak 2
Affiliation  

Accurately identifying organisms based on their partially available genetic material is an important task to explore the phylogenetic diversity in an environment. Specific fragments in the DNA sequence of a living organism have been defined as DNA barcodes and can be used as markers to identify species efficiently and effectively. The existing DNA barcode-based classification approaches suffer from three major issues: (i) most of them assume that the classification is done within a given taxonomic class and/or input sequences are pre-aligned, (ii) highly performing classifiers, such as SVM, cannot scale to large taxonomies due to high memory requirements, (iii) mutations and noise in input DNA sequences greatly reduce the taxonomic classification score. In order to address these issues, we propose a multi-level hierarchical classifier framework to automatically assign taxonomy labels to DNA sequences. We utilize an alignment-free approach called spectrum kernel method for feature extraction. We build a proof-of-concept hierarchical classifier with two levels, and evaluated it on real DNA sequence data from barcode of life data systems. We demonstrate that the proposed framework provides higher f1-score than regular classifiers. Besides, hierarchical framework scales better to large datasets enabling researchers to employ classifiers with high classification performance and high memory requirement on large datasets. Furthermore, we show that the proposed framework is more robust to mutations and noise in sequence data than the non-hierarchical classifiers.

中文翻译:

使用分层监督学习器将生物体可扩展分类为分类

根据部分可用的遗传物质准确识别生物是探索环境中系统发育多样性的一项重要任务。活生物体 DNA 序列中的特定片段已被定义为 DNA 条形码,可用作有效识别物种的标记。现有的基于 DNA 条形码的分类方法存在三个主要问题:(i)它们中的大多数假设分类是在给定的分类类别中完成的和/或输入序列是预先对齐的,(ii)高性能分类器,例如由于高内存要求,支持向量机无法扩展到大型分类,(iii)输入 DNA 序列中的突变和噪声大大降低了分类分类分数。为了解决这些问题,我们提出了一个多级分层分类器框架来自动将分类标签分配给 DNA 序列。我们利用一种称为谱核方法的无对齐方法进行特征提取。我们构建了一个具有两个级别的概念验证分层分类器,并在来自生命数据系统条形码的真实 DNA 序列数据上对其进行了评估。我们证明了所提出的框架提供了比常规分类器更高的 f1 分数。此外,分层框架可以更好地扩展到大型数据集,使研究人员能够在大型数据集上使用具有高分类性能和高内存要求的分类器。此外,我们表明,与非分层分类器相比,所提出的框架对序列数据中的突变和噪声更稳健。我们利用一种称为谱核方法的无对齐方法进行特征提取。我们构建了一个具有两个级别的概念验证分层分类器,并在来自生命数据系统条形码的真实 DNA 序列数据上对其进行了评估。我们证明了所提出的框架提供了比常规分类器更高的 f1 分数。此外,分层框架可以更好地扩展到大型数据集,使研究人员能够在大型数据集上使用具有高分类性能和高内存要求的分类器。此外,我们表明,与非分层分类器相比,所提出的框架对序列数据中的突变和噪声更稳健。我们利用一种称为谱核方法的无对齐方法进行特征提取。我们构建了一个具有两个级别的概念验证分层分类器,并在来自生命数据系统条形码的真实 DNA 序列数据上对其进行了评估。我们证明了所提出的框架提供了比常规分类器更高的 f1 分数。此外,分层框架可以更好地扩展到大型数据集,使研究人员能够在大型数据集上使用具有高分类性能和高内存要求的分类器。此外,我们表明,与非分层分类器相比,所提出的框架对序列数据中的突变和噪声更稳健。并对来自生命数据系统条形码的真实 DNA 序列数据进行评估。我们证明了所提出的框架提供了比常规分类器更高的 f1 分数。此外,分层框架可以更好地扩展到大型数据集,使研究人员能够在大型数据集上使用具有高分类性能和高内存要求的分类器。此外,我们表明,与非分层分类器相比,所提出的框架对序列数据中的突变和噪声更稳健。并对来自生命数据系统条形码的真实 DNA 序列数据进行评估。我们证明了所提出的框架提供了比常规分类器更高的 f1 分数。此外,分层框架可以更好地扩展到大型数据集,使研究人员能够在大型数据集上使用具有高分类性能和高内存要求的分类器。此外,我们表明,与非分层分类器相比,所提出的框架对序列数据中的突变和噪声更稳健。
更新日期:2020-06-12
down
wechat
bug