当前位置 : X-MOL首页行业资讯 › 浙大科创中心Nat. Commun.:深度学习实现糖基化肽段质谱图预测

浙大科创中心Nat. Commun.:深度学习实现糖基化肽段质谱图预测

注:文末有研究团队简介及本文科研思路分析


液相色谱–串联质谱(LC–MS/MS)是蛋白质和糖基化修饰分析广泛使用的方法,其核心是将实验谱图与数据库中的参考谱图进行匹配,实现肽段或糖肽的鉴定。传统的数据库搜索方法由肽段序列和糖链生成理论碎片离子的质荷比,根据实验谱图中这些离子的存在情况进行评分,在很大程度上忽略了碎片离子的强度信息。近年来,人工智能(AI)已成为蛋白质组领域的热门研究方向之一,已有诸多AI方法可以实现肽段MS/MS谱图峰强度的预测,提高对肽段的鉴定准确性和可信度。然而,这些方法只适合处理线性的肽段序列,而无法处理糖链的非线性结构。


为此,浙江大学杭州国际科创中心方群、杨奕团队提出了一种基于深度学习的糖肽MS/MS谱图预测方法DeepGlyco,并展示了其在糖蛋白质组分析中的应用。相关成果近日发表于《自然–通讯》(Nature Communications)期刊。


DeepGlyco采用常规的长短期记忆(LSTM)网络和树形的LSTM网络分别处理糖肽的肽段部分和糖链部分。树形LSTM与常规LSTM最大的区别在于,常规LSTM中只用到序列中上一步的输出,而树形LSTM将子节点的输出进行聚合操作,因此适合多分支的树结构。接着,通过特征融合将肽段和糖链的信息进行交换。考虑糖链的每一处断裂位置,将单糖节点分为断裂后丢失的节点和保留的节点,对其特征进行聚合,然后由一次或多次断裂再聚合成具有特定结构的碎片。相同单糖组成的碎片具有相同质量,合并为相同的质谱峰。此模型结构模拟了糖肽在质谱中可能的碎裂、出峰过程。最后,由肽段碎片和糖链碎片合并得到糖肽整体的谱图。

DeepGlyco模型架构示意图


研究人员将谱图预测应用于糖肽异构体的区分。通过将实验谱图与预测谱图进行比较,对相同糖肽的不同糖链结构进行打分和排序,可以排除大部分错误结构,缩小候选范围,实现部分结构的区分。其准确率在核心岩藻糖基转移酶基因敲除小鼠数据集上得到验证。与依赖于特征离子的常规糖肽结构鉴定方法相比,本方法利用MS/MS谱图的峰强度模式对糖肽异构体进行区分,糖肽的峰强度差异可以由模型给出的注意力权重进行解释。


研究人员进一步将谱图预测应用于数据非依赖性采集(DIA)糖蛋白质组分析。传统DIA分析方法需要利用由实验构建的谱图库,其并不能完全覆盖样品中待分析的糖肽。与之相比,预测谱图库包含的糖肽范围更完整,提高了糖蛋白质组分析的覆盖深度。


DeepGlyco展示了AI在质谱和糖蛋白质组分析方面的卓越能力,将助力糖蛋白质组学领域的研究和应用,促进蛋白质糖基化相关疾病机制和生物标志物的研究。


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

Prediction of glycopeptide fragment mass spectra by deep learning

Yi Yang, Qun Fang

Nat. Commun., 202415, 2448. DOI: 10.1038/s41467-024-46771-1


作者简介


方群,浙江大学求是特聘教授,博士生导师,浙江大学化学系微分析系统研究所所长,浙江大学杭州国际科创中心分子智造所所长,国家杰出青年基金获得者。自1998年开始从事微流控芯片分析的研究工作。目前研究方向包括微流控液滴分析,微流控液相色谱、质谱和毛细管电泳分析,微型化分析系统研制,以及微流控系统在单细胞多组学分析、人工智能+化学、高通量筛选、微量生化分析、临床分析和现场分析中的应用。发表研究论文130余篇。在微流控分析领域申请国家发明专利40项,其中29项获得授权。曾主持承担国家自然科学基金委重大项目课题、国家杰出青年基金、国家基金重点项目、科学仪器研制专项和面上项目,以及和国家科技部973项目课题和863计划课题等科研项目。其中,2006年获得教育部新世纪优秀人才支持计划资助,2008年获得国家自然科学基金委杰出青年基金资助,2010,2012和2018年三次获得国家基金委科学仪器研制专项项目资助。2015年,获中国化学会分析化学基础研究梁树权奖。2016年获颁国务院政府特殊津贴。


杨奕,浙江大学杭州国际科创中心PI研究员。主要研究方向为质谱分析、多组学分析方法开发及应用研究,特别是人工智能在其中的应用。主持国家自然科学基金项目1项、浙江省自然科学基金项目1项,在Nature Communications、Analytical Chemistry等权威期刊上发表论文20余篇,参编专著2部。


科研思路分析


Q:这项研究最初是什么目的?或者说想法是怎么产生的?

A:我们的研究兴趣是基于AI的蛋白质组学和糖蛋白质组学。在前期工作中,我们发展了肽段MS/MS谱图预测和DIA分析工具DeepDIA,提高了血清蛋白质组的覆盖深度(Nat. Commun., 202011: 146. DOI: 10.1038/s41467-019-13866-z);随后探索了预测谱图库在磷酸化分析的应用,实现了比常规方法更灵敏的位点定位(J. Proteome Res., 202020: 634–644. DOI: 10.1021/acs.jproteome.0c00580);发展了DIA糖蛋白质组分析工具GproDIA,利用机器学习算法实现了糖肽DIA分析结果在肽段、糖链部分乃至糖肽整体上的全面质控(Nat. Commun., 202112: 6073. DOI: 10.1038/s41467-021-26246-3)。然而,那时GproDIA仍然需要由数据依赖性采集(DDA)实验构建的谱图库。一个想法自然产生了:能否像常规肽段那样为糖肽构建预测谱图库呢?


我们对已有的肽段谱图预测方法进行了全面总结(Proteomics202323: 2200046. DOI:10.1002/pmic.202200046),这些方法采用的多为常规的LSTM或Transformers模型,适合处理线性的序列数据,而无法处理糖链这样的非线性结构。因此,我们的目标是解决糖肽谱图预测问题,以AI助力基于质谱的糖蛋白质组分析。


Q:研究过程中遇到哪些挑战?

A:我们发现,在大部分现有的谱图预测模型中,肽段输入一般表示为氨基酸和修饰的独热编码,或者表示为修饰的元素组成编码。这些编码方法适合处理线性的序列数据,而无法处理糖链这样的非线性结构。此外,完整糖肽在质谱中的碎裂行为也和常规肽段不同,谱图中既有肽段的b/y离子,又有糖链断裂产生的B/Y离子,和现有模型并不匹配。因此,糖肽谱图预测需解决的关键挑战是:建立糖链结构的特征表示,对糖链结构与二级碎片离子强度的关联进行建模。


为了应对第一个挑战,我们对肽段部分和糖链部分采取分而治之的策略,肽段部分仍然是用常规的LSTM处理,而糖链部分采用树形的LSTM处理。将糖链中的单糖节点编码成向量后,糖链LSTM先从叶节点向根节点遍历,更新节点特征,与肽段LSTM编码的肽段特征组合后,然后再从根节点向叶节点遍历,此时每个节点的隐状态向量编码了单糖类型、单糖在糖链中的位置、肽段序列的信息。


为了应对第二个挑战,我们通过查阅文献资料、挖掘已有的谱图信息,对糖肽在质谱中可能的碎裂和出峰过程做出推测,将其作为模型设计的重要依据。对于糖链的每一处断裂位置,将断裂后丢失的节点和保留的节点的特征进行聚合,得到每处断裂位置的特征。然后构建一个三元图,其中包含断裂位置、糖链碎片结构、碎片离子组成三种类型的节点,利用图神经网络由断裂位置的特征聚合得到对应B/Y离子的强度值。


Q:该研究成果可能有哪些重要的应用?

A:我们在论文中展示了DeepGlyco在DDA谱图匹配和DIA分析中的应用。


在DDA谱图匹配的应用中,我们发现预测谱图可以实现糖链异构体的部分区分。得益于模型设计时对糖肽可能的碎裂和出峰过程深入考虑,预测谱图体现了不同糖链结构对应峰强度的变化,并且这种变化是可解释的,有助于未来对糖肽在质谱中碎裂机制的研究。


在DIA分析的应用中,我们由先前研究汇总得到糖肽列表,扩展预测谱图库的覆盖范围,比实验建库鉴定到更多的糖肽。这些结果表明预测谱图库可作为实验建库的补充,提高糖蛋白质组分析的覆盖深度。


DeepGlyco扩展了基于质谱的糖蛋白质组分析的工具箱,除了论文中展示的应用外,未来还可以整合到其他糖蛋白质组信息学流程中,以AI助力更多糖蛋白质组学领域的研究和应用。我们相信这项研究成果未来有望在蛋白质糖基化相关疾病机制和生物标志物的研究中得到应用。


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
动态系统的数学与计算机建模
热点论文一站获取
购书送好礼
天然纤维材料
口腔微生物
英语语言编辑翻译加编辑
材料学领域约200份+SCI期刊
定位全球科研英才
中国图象图形学学会合作刊
东北石油大学合作期刊
动物源性食品遗传学与育种
专业英语编辑服务
左智伟--多次发布
多次发布---上海中医药
广州
天大
清华
清华
北大
西安电子
中科院
南科大
ACS材料视界
down
wechat
bug