24433
北京大学毕文健课题组
北京大学基础医学院
中文
|
English
手机浏览
扫一扫
首页
研究方向
成果及论文
组员介绍
课题组新闻
组内活动
加入我们
联系我们
当前位置:
首页
>
课题组新闻
> Nat Comput Sci | 毕文健团队开发出生存数据分析的GWAS新算法
Nat Comput Sci | 毕文健团队开发出生存数据分析的GWAS新算法
发布时间:2025-10-23
近年来,全球范围内涌现了很多大型生物样本库
(Biobank)
,为全基因组关联研究
(GWAS)
提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,生存数据表型既可以描述事件是否发生,也可以描述事件发生的时间,比传统的二分类表型更全面和细致。毕文健、周涠团队前期开发了
SPACox
,
GATE
等多个基于Cox回归模型的分析算法,这些算法可以有效分析大型生物样本库中的生存数据表型
【
1-3
】
。然而,当真实队列中存在较高的病例抽样率
(case ascertainment)
时,目前主流Cox回归类GWAS方法存在明显的统计效力缺失。
大型生物样本库收集了大量个体层面的基因型数据。基于基因型数据,可以获取群体的等位基因频率
(Allele Frequency, AF)
信息。这些信息既反映了遗传多样性,也是GWAS发现易感基因的重要参数。利用大型生物样本库中的等位基因频率,可以助力传统小队列的GWAS分析统计效力。然而,由于不同批次数据之间的批次差异,引入等位基因频率信息往往会造成大量假阳性分析结果,目前亟需方法学创新,以充分校正批次效应并利用等位基因频率信息提升统计效力。
2
025
年
9
月1
2
日,北京大学基础医学院的
毕文健
团队在
Nature Compu
tational Science
期刊发表工作
Applying weighted Cox regression to genome-wide association studies of time-to-event phenotypes
。
该工作提出了一个生存数据分析的GWAS新算法
Wt
CoxG
,在病例抽样偏倚时仍有较高的统计效力,而且可以有效引入外部的等位基因频率信息以提升统计效力。数值模拟和U
K Biobank
实际数据分析验证了算法的有效性,并找出了多个显著的遗传位点。
毕文健课题组近期开发出一系列基于
回顾式框架
(
retrospective framwork)
的GWAS新算法,包括
SPA
mix
(
Genome Biology, 2025
)
,
SPAGRM
(
Nature Communications, 2025a
)
, SPAGxE
(
Nature Communications, 2025b
)
。本文工作同样基于回顾式框架,体现出该框架比传统方法有更广泛的适用场景。
WtCoxG
算法具有以下特性:1)加权Cox回归校正病例抽样偏倚:通过对病例与对照样本赋予不同权重,能够消除抽样过程导致的估计偏倚,并提升统计效力;2)鞍点近似与正态分布混合策略:结合两种近似方法,实现对低频变异的准确快速检测,兼顾速度与准确性;3)利用外部信息提升统计效能:通过引入UK10K、gnomAD等公开资源或大型生物样本库的外部等位基因频率数据,在充分校正数据批次效应
(batch effect)
的前提下,显著提升对疾病易感基因位点的检验能力;4)高效计算与大规模可用性:在分析大型生物样本库时,CPU计算时间和内存管理能力显著优于同类方法。R包可在网站下载
(
https://wenjianbi.github.io/grab.github.io/
)
。
北京大学基础医学院
22
级博士生李莹为本文的第一作者,北京大学基础医学院毕文健研究员为本文的最后通讯作者,Broad
Institu
te的周涠和北京大学第六医院的孙瑶瑶博士是本文的共同通讯作者。马雨茁、徐赫、朱旻和北京大学第六医院的岳伟华教授是本项工作的主要贡献者。
毕文健博士毕业于中国科学院数学与系统科学研究院,先后在美国圣裘德儿童研究医院和密歇根大学从事博士后研究,在领域内具有重要影响的期刊或会议上发表学术论文30余篇。作为第一作者或通讯作者,部分工作发表于
Nature Genetics
(2022)
,
Nature Computational Science (2025), Nature Communications
(
2025a, 2025b, 2025c
)
, Genome Biology(2025)
等期刊。毕文健博士于2021年6月加入北京大学基础医学院组建统计遗传学、生物信息学实验室,2021年度入选国家级青年高层次人才计划(3
00
万)。研究方向涉及全基因组关联分析、生物医学大数据分析、基于人工智能的遗传学分析等相关算法设计。现因科研工作需要,公开招聘博士后1-2名,数据分析员1-2名,实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则,经面试考核后择优录取,待遇优厚。
详情可见课题组网站
https://www.x-mol.com/groups/wenjianb
。
原文链接:
https://www.nature.com/articles/s43588-025-00864-z