如果说基因是生命的遗传密码,那么蛋白质就是生命功能的具体执行者,其状态变化直接决定着生物体生老病死的生命过程。例如,主流观点认为阿尔茨海默病(老年痴呆症)与大脑内类淀粉样蛋白质堆积高度相关。与基因组相对应,蛋白质组是指一个细胞、组织、器官或者物种中在特定时刻或条件下表达的所有蛋白质。监测和分析蛋白质组表达量的变化,对于疾病的早期诊断、预防和治疗都有重要价值。
近年来快速发展的生物质谱技术因其高通量、高分辨率特性,成为蛋白质组研究的主流分析技术(图1)。目前,一次常规的蛋白质组实验就能产生数以百万计的质谱数据。这些海量质谱实验数据一方面为蛋白质组学提供了前所未有的研究机遇,另一方面在数据处理和分析上也充满了困难和挑战。
图1. 基于质谱的蛋白质组学
在自底向上蛋白质组学中,蛋白质首先被酶解成肽(较短的氨基酸序列),后者再被质谱仪检测分析。但是,质谱检测具有较大的随机性,表现在:有些肽能被检测到,有些肽检测不到。这种随机性给蛋白质组实验设计带来了很大困难。中科院数学与系统科学研究院付岩等科研人员与军事医学科学院蛋白质组学国家重点实验室、国家蛋白质科学中心合作,提出了融合肽酶切概率的肽可检测性预测策略,基于随机森林机器学习方法开发了肽可检测性预测算法AP3。该算法首先根据酶切位点周边的氨基酸序列预测酶切位点概率,进而计算肽的酶切概率,然后联合其它587种肽序列和物化属性预测肽可检测性。实验表明,肽酶切概率是最重要的肽可检测性预测特征,与已有最好的算法相比,AP3的特征肽预测精度提高了10.3%-34.7%。他们将AP3算法用于靶向蛋白质组学中的特征肽选择实验设计,获得了很好的效果。靶向蛋白质组学是目前疾病相关生物标记物筛选的重要研究手段。
质谱随机性的另一种表现是:相同浓度的肽的质谱信号强度往往存在很大差异。目前,蛋白质定量分析通常采用对肽质谱强度取平均的策略,由于肽质谱强度的测量误差非常大,这种策略只有当肽的数量很大时才有效,但是肽的数量通常较小。为了提高蛋白质定量分析的准确性,他们提出了肽质谱定量效率概念,开发了基于肽定量效率预测的蛋白质绝对定量算法LFAQ。该算法首先利用贝叶斯回归累加树模型,根据肽序列和物化属性预测肽定量效率,然后用预测的定量效率校正肽质谱强度信号,进而对蛋白质浓度进行更准确的定量。实验表明,LFAQ算法可以有效的在肽和蛋白水平上减小样本浓度和质谱强度之间的测量误差,显著提升蛋白质定量的精度,尤其是对于低丰度蛋白,将定量误差减小了46%。
以上合作研究成果发表于分析化学领域顶级期刊Analytical Chemistry,中科院数学与系统科学研究院博士毕业生高志强是共同第一作者,付岩副研究员是共同通讯作者,军事医学科学院蛋白质组学国家重点实验室、国家蛋白质科学中心贺福初院士、朱云平研究员、常乘助理研究员等为共同通讯或第一作者。
工具链接:
AP3: http://fugroup.amss.ac.cn/software/AP3/AP3.html
LFAQ: https://lfaq.github.io/LFAQ/
论文信息:
1. Gao Z, Chang C, Yang J, Zhu Y, Fu Y. AP3: An Advanced Proteotypic Peptide Predictor for Targeted Proteomics by Incorporating Peptide Digestibility. Analytical Chemistry, 2019, 91, 8705−8711.
2. Chang C, Gao Z, Ying W, Fu Y, Zhao Y, Wu S, Li M, Wang G, Qian X, Zhu Y, He F. LFAQ: towards unbiased label-free absolute protein quantification by predicting peptide quantitative factors. Analytical Chemistry, 2019, 91, 1335−1343.
作者:付岩副研究员,中国科学院数学与系统科学研究院
来源:中国科学院数学与系统科学研究院
长按二维码—识别—关注