24425
Current Page: Home   >  News   >  (Nat. Commun.) 毕文健/岳伟华/张培培团队开发出分析纵向数据表型的GWAS新算法
(Nat. Commun.) 毕文健/岳伟华/张培培团队开发出分析纵向数据表型的GWAS新算法
Published On:2025-03-21

近年来,全球范围内涌现了很多大型生物样本库 (Biobank) ,为GWAS提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,在多时间点重复测量的数量性状常被称为纵向数据表型,其能够表征健康状况的动态演变规律。基于纵向性状的全基因组关联研究 (GWAS) 可以识别出与健康状况动态发展和疾病进程密切相关的遗传变异,为解析复杂性状的遗传结构提供全新视角。

针对大型生物样本库的GWAS分析存在样本量大、表型分布不平衡、样本之间具有亲缘相关性等实际困难。针对数量性状和质量性状,已有大量算法可以处理上述困难【1-4】。但针对更复杂结构的数据形式,比如纵向数据表型,仍缺乏有效的解决方案,这也导致针对纵向性状的GWAS分析尚未得到充分发展。

2025年2月6日,北京大学与北京大学第六医院的毕文健/岳伟华/张培培合作团队在Nature Communications期刊发表工作SPAGRM: effectively controlling for sample relatedness in large-scale genome-wide association studies of longitudinal traits该工作提出了一个针对纵向数据表型的GWAS分析框架SPAGRM,并利用该方法分析了从UK Biobank电子健康记录数据中提取的79个纵向性状,找出了7,463个与表型均值显著相关的遗传位点,以及362个与表型动态变化方差密切相关的遗传位点。


SPAGRM算法具有以下特性:1)准确建模基因型联合分布以控制样本之间的亲缘相关性;2)利用鞍点近似-正态分布分析混合策略,提升分析准确性的同时兼顾运算速度;3)利用多模型Cauchy组合策略整合来自不同模型的SPAGRM分析结果以提升统计效力。4)核心代码用C++进行优化,使其具备更好的运算效率与内存控制。R包可在网站下载 (https://hexupku.github.io/SPAGRM.github.io/) 。

北京大学基础医学院博士生徐赫为本文的第一作者,北京大学毕文健、张培培和北京大学第六医院岳伟华教授为本文的共同通讯作者。Seunggeun Lee、周涠、周绪杰老师和博士生马雨茁、徐琳琳、李印、刘雨菲、李莹是本项工作的主要贡献者。

https://www.nature.com/articles/s41467-025-56669-1