当前位置: X-MOL 学术Front. Genet. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Density Peak-Based Method to Detect Copy Number Variations From Next-Generation Sequencing Data
Frontiers in Genetics ( IF 3.7 ) Pub Date : 2020-12-21 , DOI: 10.3389/fgene.2020.632311
Kun Xie , Ye Tian , Xiguo Yuan

Copy number variation (CNV) is a common type of structural variations in human genome and confers biological meanings to human complex diseases. Detection of CNVs is an important step for a systematic analysis of CNVs in medical research of complex diseases. The recent development of next-generation sequencing (NGS) platforms provides unprecedented opportunities for the detection of CNVs at a base-level resolution. However, due to the intrinsic characteristics behind NGS data, accurate detection of CNVs is still a challenging task. In this article, we propose a new density peak-based method, called dpCNV, for the detection of CNVs from NGS data. The algorithm of dpCNV is designed based on density peak clustering algorithm. It extracts two features, i.e., local density and minimum distance, from sequencing read depth (RD) profile and generates a two-dimensional data. Based on the generated data, a two-dimensional null distribution is constructed to test the significance of each genome bin and then the significant genome bins are declared as CNVs. We test the performance of the dpCNV method on a number of simulated datasets and make comparison with several existing methods. The experimental results demonstrate that our proposed method outperforms others in terms of sensitivity and F1-score. We further apply it to a set of real sequencing samples and the results demonstrate the validity of dpCNV. Therefore, we expect that dpCNV can be used as a supplementary to existing methods and may become a routine tool in the field of genome mutation analysis.



中文翻译:

基于密度峰值的下一代测序数据中拷贝数变异的检测方法

拷贝数变异(CNV)是人类基因组中结构变异的一种常见类型,赋予人类复杂疾病以生物学意义。在复杂疾病医学研究中,CNV的检测是系统分析CNV的重要步骤。下一代测序(NGS)平台的最新发展为以基本水平的分辨率检测CNV提供了前所未有的机会。但是,由于NGS数据背后的固有特性,准确检测CNV仍然是一项艰巨的任务。在本文中,我们提出了一种新的基于密度峰的方法,称为dpCNV,用于从NGS数据中检测CNV。基于密度峰值聚类算法设计了dpCNV算法。它提取两个特征,即局部密度和最小距离,从测序读取深度(RD)配置文件中生成二维数据。基于生成的数据,构建二维空分布以测试每个基因组区域的重要性,然后将重要的基因组区域声明为CNV。我们在许多模拟数据集上测试了dpCNV方法的性能,并与几种现有方法进行了比较。实验结果表明,我们提出的方法在灵敏度和F1评分方面优于其他方法。我们进一步将其应用于一组实际测序样品,结果证明了dpCNV的有效性。因此,我们希望dpCNV可以用作现有方法的补充,并可能成为基因组突变分析领域的常规工具。构建二维无效分布以测试每个基因组bin的重要性,然后将重要的基因组bin声明为CNV。我们在许多模拟数据集上测试了dpCNV方法的性能,并与几种现有方法进行了比较。实验结果表明,我们提出的方法在灵敏度和F1评分方面优于其他方法。我们进一步将其应用于一组实际测序样品,结果证明了dpCNV的有效性。因此,我们希望dpCNV可以用作现有方法的补充,并可能成为基因组突变分析领域的常规工具。构建二维无效分布以测试每个基因组bin的重要性,然后将重要的基因组bin声明为CNV。我们在许多模拟数据集上测试了dpCNV方法的性能,并与几种现有方法进行了比较。实验结果表明,我们提出的方法在灵敏度和F1评分方面优于其他方法。我们进一步将其应用于一组实际测序样品,结果证明了dpCNV的有效性。因此,我们希望dpCNV可以用作现有方法的补充,并可能成为基因组突变分析领域的常规工具。我们在许多模拟数据集上测试了dpCNV方法的性能,并与几种现有方法进行了比较。实验结果表明,我们提出的方法在灵敏度和F1评分方面优于其他方法。我们进一步将其应用于一组实际测序样品,结果证明了dpCNV的有效性。因此,我们希望dpCNV可以用作现有方法的补充,并可能成为基因组突变分析领域的常规工具。我们在许多模拟数据集上测试了dpCNV方法的性能,并与几种现有方法进行了比较。实验结果表明,我们提出的方法在灵敏度和F1评分方面优于其他方法。我们进一步将其应用于一组实际测序样品,结果证明了dpCNV的有效性。因此,我们希望dpCNV可以用作现有方法的补充,并可能成为基因组突变分析领域的常规工具。

更新日期:2021-01-13
down
wechat
bug