当前位置: X-MOL 学术Genome Res. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Sequencing of individual barcoded cDNAs using Pacific Biosciences and Oxford Nanopore Technologies reveals platform-specific error patterns
Genome Research ( IF 7 ) Pub Date : 2022-04-01 , DOI: 10.1101/gr.276405.121
Alla Mikheenko 1 , Andrey D Prjibelski 1 , Anoushka Joglekar 2 , Hagen U Tilgner 2
Affiliation  

Long-read transcriptomics require understanding error sources inherent to technologies. Current approaches cannot compare methods for an individual RNA molecule. Here, we present a novel platform-comparison method that combines barcoding strategies and long-read sequencing to sequence cDNA copies representing an individual RNA molecule on both Pacific Biosciences (PacBio) and Oxford Nanopore Technologies (ONT). We compare these long-read pairs in terms of sequence content and isoform patterns. Although individual read pairs show high similarity, we find differences in (1) aligned length, (2) transcription start site (TSS), (3) polyadenylation site (poly(A)-site) assignment, and (4) exon–intron structures. Overall, 25% of read pairs disagree on either TSS, poly(A)-site, or splice site. Intron-chain disagreement typically arises from alignment errors of microexons and complicated splice sites. Our single-molecule technology comparison reveals that inconsistencies are often caused by sequencing error–induced inaccurate ONT alignments, especially to downstream GUNNGU donor motifs. However, annotation-disagreeing upstream shifts in NAGNAG acceptors in ONT are often confirmed by PacBio and are thus likely real. In both barcoded and nonbarcoded ONT reads, we find that intron number and proximity of GU/AGs better predict inconsistencies with the annotation than read quality alone. We summarize these findings in an annotation-based algorithm for spliced alignment correction that improves subsequent transcript construction with ONT reads.

中文翻译:

使用 Pacific Biosciences 和 Oxford Nanopore Technologies 对单个条形码 cDNA 进行测序揭示了特定于平台的错误模式

长读长转录组学需要了解技术固有的错误来源。目前的方法无法比较单个 RNA 分子的方法。在这里,我们提出了一种新的平台比较方法,该方法结合了条形码策略和长读长测序来对代表 Pacific Biosciences (PacBio) 和 Oxford Nanopore Technologies (ONT) 上的单个 RNA 分子的 cDNA 拷贝进行测序。我们根据序列内容和异构体模式比较这些长读对。尽管单个读取对显示出高度相似性,但我们发现 (1) 对齐长度、(2) 转录起始位点 (TSS)、(3) 多腺苷酸化位点 (poly(A)-site) 分配和 (4) 外显子-内含子存在差异结构。总体而言,25% 的读取对在 TSS、poly(A) 位点或剪接位点上存在分歧。内含子链不一致通常源于微外显子的对齐错误和复杂的剪接位点。我们的单分子技术比较表明,不一致通常是由测序错误引起的不准确 ONT 比对引起的,尤其是对下游 GUNNGU 供体基序。然而,ONT 中 NAGNAG 受体的注释不一致的上游转移通常被 PacBio 证实,因此很可能是真实的。在条形码和非条形码 ONT 读取中,我们发现 GU/AG 的内含子数量和接近度比​​单独读取质量更好地预测与注释的不一致。我们在一个基于注释的算法中总结了这些发现,用于拼接对齐校正,该算法改进了后续使用 ONT 读取的转录本构建。我们的单分子技术比较表明,不一致通常是由测序错误引起的不准确 ONT 比对引起的,尤其是对下游 GUNNGU 供体基序。然而,ONT 中 NAGNAG 受体的注释不一致的上游转移通常被 PacBio 证实,因此很可能是真实的。在条形码和非条形码 ONT 读取中,我们发现 GU/AG 的内含子数量和接近度比​​单独读取质量更好地预测与注释的不一致。我们在一个基于注释的算法中总结了这些发现,用于拼接对齐校正,该算法改进了后续使用 ONT 读取的转录本构建。我们的单分子技术比较表明,不一致通常是由测序错误引起的不准确 ONT 比对引起的,尤其是对下游 GUNNGU 供体基序。然而,ONT 中 NAGNAG 受体的注释不一致的上游转移通常被 PacBio 证实,因此很可能是真实的。在条形码和非条形码 ONT 读取中,我们发现 GU/AG 的内含子数量和接近度比​​单独读取质量更好地预测与注释的不一致。我们在一个基于注释的算法中总结了这些发现,用于拼接对齐校正,该算法改进了后续使用 ONT 读取的转录本构建。PacBio 经常确认 ONT 中 NAGNAG 受体的注释不同意上游转移,因此可能是真实的。在条形码和非条形码 ONT 读取中,我们发现 GU/AG 的内含子数量和接近度比​​单独读取质量更好地预测与注释的不一致。我们在一个基于注释的算法中总结了这些发现,用于拼接对齐校正,该算法改进了后续使用 ONT 读取的转录本构建。PacBio 经常确认 ONT 中 NAGNAG 受体的注释不同意上游转移,因此可能是真实的。在条形码和非条形码 ONT 读取中,我们发现 GU/AG 的内含子数量和接近度比​​单独读取质量更好地预测与注释的不一致。我们在一个基于注释的算法中总结了这些发现,用于拼接对齐校正,该算法改进了后续使用 ONT 读取的转录本构建。
更新日期:2022-04-01
down
wechat
bug