当前位置: X-MOL 学术Proteomics › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A model of random mass-matching and its use for automated significance testing in mass spectrometric proteome analysis.
Proteomics ( IF 3.4 ) Pub Date : 2002-03-29 , DOI: 10.1002/1615-9861(200203)2:3<262::aid-prot262>3.0.co;2-w
Jan Eriksson 1 , David Fenyö
Affiliation  

A rapid and accurate method for testing the significance of protein identities determined by mass spectrometric analysis of protein digests and genome database searching is presented. The method is based on direct computation using a statistical model of the random matching of measured and theoretical proteolytic peptide masses. Protein identification algorithms typically rank the proteins of a genome database according to a score based on the number of matches between the masses obtained by mass spectrometry analysis and the theoretical proteolytic peptide masses of a database protein. The random matching of experimental and theoretical masses can cause false results. A result is significant only if the score characterizing the result deviates significantly from the score expected from a false result. A distribution of the score (number of matches) for random (false) results is computed directly from our model of the random matching, which allows significance testing under any experimental and database search constraints. In order to mimic protein identification data quality in large-scale proteome projects, low-to-high quality proteolytic peptide mass data were generated in silico and subsequently submitted to a database search program designed to include significance testing based on direct computation. This simulation procedure demonstrates the usefulness of direct significance testing for automatically screening for samples that must be subjected to peptide sequence analysis by e.g. tandem mass spectrometry in order to determine the protein identity.

中文翻译:

随机质量匹配模型及其在质谱蛋白质组分析中用于自动显着性检验的用途。

提出了一种快速,准确的方法,用于测试通过蛋白质消化物的质谱分析和基因组数据库搜索确定的蛋白质身份的重要性。该方法基于使用测量和理论蛋白水解肽质量的随机匹配的统计模型的直接计算。蛋白质鉴定算法通常根据基于质谱分析获得的质量与数据库蛋白质理论蛋白水解肽质量之间的匹配数,根据得分对基因组数据库的蛋白质进行排名。实验质量和理论质量的随机匹配可能导致错误的结果。仅当表征结果的得分与错误结果所预期的得分显着偏离时,结果才有意义。直接从我们的随机匹配模型中计算出随机(假)结果的得分(匹配数)分布,这可以在任何实验和数据库搜索约束下进行显着性检验。为了模拟大规模蛋白质组项目中的蛋白质鉴定数据质量,从计算机生成低到高质量的蛋白水解肽质量数据,然后将其提交给数据库搜索程序,该程序设计为包括基于直接计算的重要性测试。该模拟程序证明了直接重要性测试用于自动筛选必须通过例如串联质谱法进行肽序列分析以确定蛋白质同一性的样品的有用性。这允许在任何实验和数据库搜索约束下进行重要性测试。为了模拟大规模蛋白质组项目中的蛋白质鉴定数据质量,从计算机生成低到高质量的蛋白水解肽质量数据,然后将其提交给数据库搜索程序,该程序设计为包括基于直接计算的重要性测试。该模拟程序证明了直接重要性测试用于自动筛选必须通过例如串联质谱法进行肽序列分析以确定蛋白质同一性的样品的有用性。这允许在任何实验和数据库搜索约束下进行重要性测试。为了模拟大规模蛋白质组项目中的蛋白质鉴定数据质量,从计算机生成低到高质量的蛋白水解肽质量数据,然后将其提交给数据库搜索程序,该程序设计为包括基于直接计算的重要性测试。该模拟程序证明了直接重要性测试用于自动筛选必须通过例如串联质谱法进行肽序列分析以确定蛋白质同一性的样品的有用性。从计算机生成低到高质量的蛋白水解肽质量数据,然后将其提交给数据库搜索程序,该程序设计为包括基于直接计算的重要性测试。该模拟程序证明了直接意义测试用于自动筛选必须通过例如串联质谱法进行肽序列分析以确定蛋白质同一性的样品的有用性。从计算机生成低到高质量的蛋白水解肽质量数据,然后将其提交给数据库搜索程序,该程序设计为包括基于直接计算的重要性测试。该模拟程序证明了直接意义测试用于自动筛选必须通过例如串联质谱法进行肽序列分析以确定蛋白质同一性的样品的有用性。
更新日期:2019-11-01
down
wechat
bug