当前位置: X-MOL 学术Hereditas › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
STRsearch: a new pipeline for targeted profiling of short tandem repeats in massively parallel sequencing data
Hereditas ( IF 2.1 ) Pub Date : 2020-03-16 , DOI: 10.1186/s41065-020-00120-6
Dong Wang , Ruiyang Tao , Zhiqiang Li , Dun Pan , Zhuo Wang , Chengtao Li , Yongyong Shi

Background Short tandem repeats (STRs) are important polymorphism makers for human identification and kinship analyses in forensic science. With the continuous development of massively parallel sequencing (MPS), more laboratories have utilized this technology for forensic applications. Existing STR genotyping tools, mostly developed for whole-genome sequencing data, are not effective for MPS data. More importantly, their backward compatibility with the conventional capillary electrophoresis (CE) technology has not been evaluated and guaranteed. Results In this study, we developed a new end-to-end pipeline called STRsearch for STR-MPS data analysis. The STRsearch can not only determine the allele by counting repeat patterns and INDELs that are actually in the STR region, but it also translates MPS results into standard STR nomenclature (numbers and letters). We evaluated the performance of STRsearch in two forensic sequencing datasets, and the concordance with CE genotypes was 75.73 and 75.75%, increasing 12.32 and 9.05% than the existing tool named STRScan, respectively. Additionally, we trained a base classifier using sequence properties and used it to predict the probability of correct genotyping at a given locus, resulting in the highest accuracy of 96.13%. Conclusions All these results demonstrated that STRsearch was a better tool to protect the backward compatibility with CE for the targeted STR profiling in MPS data. STRsearch is available as open-source software at https://github.com/AnJingwd/STRsearch .

中文翻译:

STRsearch:用于在大规模并行测序数据中对短串联重复序列进行靶向分析的新管道

背景短串联重复序列 (STR) 是法医学中用于人类身份识别和亲属关系分析的重要多态性标记物。随着大规模并行测序(MPS)的不断发展,越来越多的实验室将这项技术用于法医应用。现有的 STR 基因分型工具,主要是为全基因组测序数据开发的,对 MPS 数据无效。更重要的是,它们与传统毛细管电泳 (CE) 技术的向后兼容性尚未得到评估和保证。结果 在本研究中,我们开发了一种新的端到端管道,称为 STRsearch,用于 STR-MPS 数据分析。STRsearch 不仅可以通过计算实际位于 STR 区域的重复模式和 INDEL 来确定等位基因,但它还可以将 MPS 结果转换为标准的 STR 命名法(数字和字母)。我们在两个法医测序数据集中评估了 STRsearch 的性能,与 CE 基因型的一致性分别为 75.73 和 75.75%,分别比名为 STRScan 的现有工具提高了 12.32 和 9.05%。此外,我们使用序列属性训练了一个基分类器,并用它来预测给定基因座正确基因分型的概率,从而达到 96.13% 的最高准确率。结论 所有这些结果都表明 STRsearch 是一种更好的工具,可以保护与 CE 的向后兼容性,用于 MPS 数据中的靶向 STR 分析。STRsearch 可在 https://github.com/AnJingwd/STRsearch 作为开源软件使用。与CE基因型的一致性分别为75.73%和75.75%,比现有的STRScan工具分别提高了12.32%和9.05%。此外,我们使用序列属性训练了一个基分类器,并用它来预测给定基因座正确基因分型的概率,从而达到 96.13% 的最高准确率。结论 所有这些结果都表明 STRsearch 是一种更好的工具,可以保护与 CE 的向后兼容性,用于 MPS 数据中的靶向 STR 分析。STRsearch 可在 https://github.com/AnJingwd/STRsearch 作为开源软件使用。与CE基因型的一致性分别为75.73%和75.75%,比现有的STRScan工具分别提高了12.32%和9.05%。此外,我们使用序列属性训练了一个基分类器,并用它来预测给定基因座正确基因分型的概率,从而达到 96.13% 的最高准确率。结论 所有这些结果都表明 STRsearch 是一种更好的工具,可以保护与 CE 的向后兼容性,用于 MPS 数据中的靶向 STR 分析。STRsearch 可在 https://github.com/AnJingwd/STRsearch 作为开源软件使用。导致最高准确率为 96.13%。结论 所有这些结果都表明 STRsearch 是一种更好的工具,可以保护与 CE 的向后兼容性,用于 MPS 数据中的靶向 STR 分析。STRsearch 可在 https://github.com/AnJingwd/STRsearch 作为开源软件使用。导致最高准确率为 96.13%。结论 所有这些结果都表明 STRsearch 是一种更好的工具,可以保护与 CE 的向后兼容性,用于 MPS 数据中的靶向 STR 分析。STRsearch 可在 https://github.com/AnJingwd/STRsearch 作为开源软件使用。
更新日期:2020-03-16
down
wechat
bug