22858
当前位置: 首页   >  课题组新闻   >  生物信息研究组在基因组序列比对算法领域取得重要进展
生物信息研究组在基因组序列比对算法领域取得重要进展
发布时间:2025-12-22

近日,青岛大学计算机科学技术学院生物信息研究团队在生物信息学领域顶级国际会议IEEE BIBM 2025上发表重要研究成果,论文题为“Concisemizer: An Asymmetric Redundancy-Removal Algorithm for Efficient Seed Sampling in Large-Scale Sequence Alignment”。该研究由高浩、孙洋洋和苏晓泉(通讯作者)共同完成,提出了一种新型高效的种子采样算法Concisemizer,显著提升了大规模基因组序列比对的计算效率。

研究背景与挑战

随着高通量与三代测序技术的发展,基因组数据规模迅速增长。现代序列比对普遍采用“种子—链式—扩展”框架,其中种子提取效率直接影响整体性能。现有广泛使用的minimizer方法虽兼顾效率与敏感度,但会产生大量冗余种子,显著增加索引规模和比对开销。如何在保持敏感度的同时有效降低种子冗余,成为大规模基因组比对中的关键挑战。

创新方法:Concisemizer算法

针对上述问题,研究团队提出了Concisemizer,一种非对称、同步冗余消除的种子采样算法。该方法通过多条冗余消除规则,在参考序列上同步生成并筛选种子,仅对参考侧进行去冗余,而查询序列仍采用传统minimizer,从而在减少种子数量的同时保持比对灵敏度。

性能评估与实验结果

在六个模式物种基因组上的评估结果表明,Concisemizer在种子密度和重复率方面均明显优于minimizer。将三代测序序列比对金标准工具minimap2中的minimizer模块替换为Concisemizer后,在人类基因组长读长比对任务中实现了最高9.5倍加速,且对比对准确相当。

应用前景与研究意义

Concisemizer有效降低了种子采样阶段的系统性冗余,在保证精度的前提下显著提升了大规模序列比对效率。该方法具有良好的通用性和可扩展性,可广泛应用于基因组组装、变异检测和宏基因组分析等场景,为大规模基因组数据分析提供了有力支撑。

 

 


图1. Minimizer算法与Concisemizer算法的对比,包括冗余去除步骤示意图。图中,绿色代表碱基序列,灰色代表单个k-mer,橙色表示minimizer选出的种子,蓝色表示Concisemizer选出的种子。A. Minimizer算法从每个包含w个连续k-mer的窗口中,选取字典序最小的k-mer作为种子。左侧参考序列上的颜色标注了采样频率,数字表示每个碱基被采样的次数。B. Concisemizer通过对minimizer的输出结果应用预定义的步骤来降低冗余,显著减少了被采样的碱基数,如左侧所示。C. 五个冗余去除步骤的示意图。每个子图展示了触发条件(箭头左侧)以及随后执行的操作(箭头右侧)。

 

 

 

论文信息:

Hao Gao, Yangyang Sun, Xiaoquan Su*. "Concisemizer: An Asymmetric Redundancy-Removal Algorithm for Efficient Seed Sampling in Large-Scale Sequence Alignment." In Proceedings of the IEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2025.