38344
当前位置: 首页   >  课题组新闻   >  解决血液蛋白质组学研究中的隐藏干扰难题 | 王洪团队文章预印版上线bioRxiv
解决血液蛋白质组学研究中的隐藏干扰难题 | 王洪团队文章预印版上线bioRxiv
发布时间:2025-07-15

在临床大队列研究中,血浆蛋白质组学因其微创、反映全身状态等优势,正逐步成为生物标志物发现的重要手段。然而血浆蛋白质组数据长期面临红细胞溶血、血小板残留及凝血因子渗漏三大污染源的严重干扰,这些污染主要由临床样本采集时的离心速度差异、抗凝剂使用不一致及操作流程变异引发,并且会显著影响血浆蛋白质组数据质量,这些干扰在临床样本制备中难以避免。遗憾的是,绝大部分研究仍未意识到这个问题的严重性,导致发现的潜在生物标志物可能来源于污染而非真实信号,而目前仍无工具能够在数据层面对污染进行“补救”,实现“变废为宝”,红细胞、血小板和凝血因子的污染仍然是一个普遍存在且经常被忽视的问题,会严重影响数据质量、下游生物学解析和生物标志物的发现。

 

近期,中国医学科学院血液病医院(中国医学科学院血液学研究所)王洪团队在《bioRxiv》平台在线发表题为CAT-APP: Contamination Analysis and Tempering—An Automated Online Platform for Plasma Proteomics with Data Rescuing Capabilities的研究成果。该研究首次开发出可智能校正血浆蛋白质组污染的在线平台CAT-APP(访问地址:https://www.bloodecosystem.com/tools/CAT-APP),成功解决因样本污染导致生物标志物假阳性的行业难题。平台在28项独立临床数据集中验证显示,82%的研究存在严重污染,经校正后真实生物信号检出率显著提升,相关技术已申请国家发明专利并获批软件著作权。

 

在一项真实临床感染大队列研究中,研究团队率先识别出一类表达极高的异常样本。这些样本中有部分蛋白表达量明显升高,其变异程度与互相关联性远高于其他样本,差异甚至超越感染者与健康人群之间的差异,严重干扰了数据整体结构。深入分析表明,这些异常蛋白富集于血小板通路,且98.7%与血小板蛋白质谱中的高丰度蛋白一致,明确指向血小板污染。

 

为恢复被污染影响的蛋白表达值,团队构建了基于数学模型的污染矫正算法。该算法利用污染标志物与目标蛋白之间的相关性,建立个体化的污染校正模型,在保留生物学信号的前提下,有效剔除污染干扰。经CAT-APP校正后,原本的“异常样本”在主成分分析中恢复至合理分布,组间差异显著增强。高达209个“假阳性”差异蛋白被排除,免疫与炎症相关真实通路显现,成功“还原”了被掩盖的真实生物学信号。



不仅如此,CAT-APP平台在多个外部数据集中的广泛应用也进一步验证其普适性。在一项神经退行性疾病研究中,平台识别出显著的红细胞污染并成功校正,差异蛋白数量提升近50%,阿尔兹海默症等关键通路被成功识别;而在心肌病队列中,即使污染程度适中,CAT-APP亦能减少血小板偏差,进一步增强心肌相关通路富集,显示出极高的灵敏性与适应性。系统分析表明,在28个独立数据集中,仅有17.9%可视为无污染,多达82.1%的真实研究样本存在不同程度的污染问题,其中39.2%同时受多个污染源影响。这一发现量化了血浆蛋白质组污染的广泛性,并强调了自适应污染校正工具的紧迫需求。


CAT-APP作为一个免费的在线平台,降低了研究人员的使用门槛,使来自不同背景的研究人员无需专业的计算专业知识便能够执行系统的污染评估和校正。其交互式可视化功能提供对污染水平和校正结果的直观判断,支持透明和自主决策。该平台的模块化设计还允许未来进行扩展,以适应其他的污染源和随着技术的发展而采用的其他校正策略。更重要的是,CAT-APP框架可以扩展到其他存在血液污染问题的液体活检甚至组织样本,将其适用性扩展到血浆和血清之外。


此项研究系统解析了血浆蛋白质组研究中污染干扰的来源与影响机制,提出了完整的数据校正与恢复框架:建立血浆蛋白质组污染的自适应识别体系,开发了可动态调节的校正模型,并构建数据恢复与可视化一体化在线平台CAT-APP。显著提升差异蛋白筛选的准确性和生物标志物发现的可信度,为大队列蛋白质组数据的再利用与挖掘提供了通用性工具,填补了血浆蛋白质组学工作流程中的关键空白。


bioRxiv文章链接:https://www.biorxiv.org/content/10.1101/2025.07.08.663798v1