24428
当前位置: 首页   >  课题组新闻   >  Genome Biol | 毕文健团队开发出针对混杂人群的GWAS新算法
Genome Biol | 毕文健团队开发出针对混杂人群的GWAS新算法
发布时间:2025-10-23
近年来,全球范围内涌现了很多大型生物样本库(Biobank),为全基因组关联研究(GWAS)提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,生存数据表型既可以描述事件是否发生,也可以描述事件发生的时间;多分类表型可以更准确描述个体的健康、亚健康和疾病状态,比传统的二分类表型更全面和细致;在多时间点重复测量的数量性状常被称为纵向数据表型,其能够表征健康状况的动态演变规律。基于这些更复杂数据形式的表型数据进行GWAS可以更有效识别出与健康状况密切相关的遗传变异,为解析复杂性状的遗传结构提供全新视角。


群体分层或人群混杂是全基因组关联分析中的一个重要混杂因素,大型生物样本库可能包括大量来自异质人群或混血人群的个体。比如英国大型生物样本库UK Biobank中约40万人为白人族群,约10万人为其他族群,不同族群或亚群中遗传位点的遗传变异率以及表型的分布常有差异。由于人群结构的带来的混杂,混杂人群中的个体通常被排除在分析之外,导致混杂人群所蕴含的信息无法被充分利用,进而导致统计效力的损失。
20251016日,北京大学基础医学院的毕文健/张培培团队与中国科学院数学与系统科学研究院张纪峰团队合作,在Genome Biology期刊发表工作SPAmix: A scalable, accurate, and universal analysis framework for large-scale genetic association studies in admixed populations该工作提出了一个针对复杂数据结构表型的通用GWAS分析框架SPAmix,并基于数值模拟以及UK BiobankALLofUS的实际数据分析验证了算法的有效性,在跨种族分析中找出了多个显著的具有显著遗传效应的位点。
SPAmix算法具有以下特性:1)首次提出基于回顾式框架retrospective framework的鞍点近似-正态分布分析混合策略,提升分析准确性的同时兼顾运算速度;2)适用于多种复杂数据结构表型(数量表型、质量表型、生存表型、纵向数据表型和多分类表型等)的分析;3)适用于混合人群的跨种族分析;4)可扩展至SPAmixlocal算法,利用局部血统(local ancestry以提升针对混合人群分析的统计效力;5)核心代码用C++进行优化,使其具备更好的运算效率与内存控制。R包可在网站下载https://wenjianbi.github.io/grab.github.io/
北京大学基础医学院22级博士生马雨茁为本文的第一作者,北京大学基础医学院毕文健研究员为本文的最后通讯作者,北京大学基础医学院张培培助理教授和中国科学院数学与系统科学研究院张纪峰研究员是本文的共同通讯作者。Seunggeun Lee周涠、周绪杰、毛凤彪、徐鹏老师和博士生徐赫、李莹、Hyesung Kim、徐琳琳以及苗林博士是本项工作的主要贡献者。


毕文健博士毕业于中国科学院数学与系统科学研究院,先后在美国圣裘德儿童研究医院和密歇根大学从事博士后研究,在领域内具有重要影响的期刊或会议上发表学术论文30余篇。作为第一作者或通讯作者,部分工作发表于Nature Genetics (2022)Nature Computational Science (2025) , Nature Communications  (2025a, 2025b, 2025c), Genome Biology (2025), American Journal of Human Genetics (2019, 2020, 2021, 2023), PLoS Genetics, Genetics, Biostatistics等期刊。毕文健博士于2021年6月加入北京大学基础医学院组建统计遗传学、生物信息学实验室,2021年度入选国家级青年高层次人才计划。研究方向涉及全基因组关联分析、生物医学大数据分析、基于人工智能的遗传学分析等相关算法设计。现因科研工作需要,公开招聘博士后1-2名,数据分析员1-2名,实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则,经面试考核后择优录取,待遇优厚。 详情可见课题组网站https://www.x-mol.com/groups/wenjianb
原文链接: https://doi.org/10.1186/s13059-025-03827-9