当前位置 : X-MOL首页行业资讯 › 超快速的EI-MS数据库匹配算法用于百万级化合物的鉴定

超快速的EI-MS数据库匹配算法用于百万级化合物的鉴定

谱匹配是质谱法中最常用的化合物鉴定方法。然而,谱库的覆盖范围、谱匹配精度以及匹配速度等方面的问题限制了化合物鉴定的效率。那么,在扩大谱库覆盖范围的情况下,怎么同时保证搜库速度与谱匹配准确度呢?近日,中南大学卢红梅点击查看介绍)团队建立了百万规模的计算EI-MS库。在此基础上,提出了一种超快速准确的质谱匹配方法 (FastEI)。


质谱分析(MS)是一种方便、高灵敏度和可靠的复杂混合物分析方法,在生命科学领域如代谢组学和蛋白质组学以及有机合成化学中至关重要。然而,由于现有谱库的覆盖范围有限,MS实验中的绝大多数化合物无法被识别。生成计算质谱可以快速从分子结构中生成大规模的计算质谱,从而扩展了化学空间覆盖范围。对于大规模的谱库,另一个挑战是如何在保证化合物鉴定准确性的同时,保证谱匹配速度。


中南大学卢红梅团队开发的超快速准确的质谱匹配方法 (FastEI) 很好的解决了上述问题。首先,在FastEI中加入百万规模的质谱库,以改进基于EI-MS的化合物鉴定; 其次,FastEI的高精度依赖于Word2vec谱嵌入。采用Word2vec模型从质谱中学习得到跟分子结构信息相关的有意义的表示,d维嵌入。第三,FastEI的超快匹配速度依赖于基于Hierarchical Navigable Small-world Graph (HNSW) 的近邻搜索方法。最后,FastEI被打包成一个独立的、用户友好的软件,供没有编程背景的用户使用。用户只需在FastEI中加载未知物的测量的质谱,就可以快速准确地鉴定未知化合物。

图1. Word2vec和HNSW。图片来源:Nat Commun.


FastEI的准确性和速度与加权余弦相似度 (WCS) 在测试集上进行了比较 (如图2所示)。测试集的测量光谱来自NIST 2017主库。FastEI和WCS的比较结果显示在下表中。可以发现,FastEI每个查询质谱的运行时间为0.0042秒,而WCS每个查询光谱的运行时间为2.4849秒。当匹配一个光谱时,FastEI比WCS快约592倍。

图2. FastEI与加权余弦相似度方法的性能比较。图片来源:Nat Commun.


为了展示百万级模拟库和FastEI的准确性优势,作者从有机实验室中收集了10个不属于NIST 2017库的化合物。它们的结构如图3所示。化合物1、2、45是具有苯环上不同取代基的常见芳香化合物。如果直接通过与NIST 2017库进行匹配来对这10个分子进行识别,将无法获得正确的结果。借助大规模的模拟库,这些化合物可以在很大程度上通过FastEI进行识别。它们的排名显示在图3中。可以看到,它们的Top 1准确率为50%,Top 10准确率可达到70%。

图3. FastEI在NIST 2017之外化合物上的性能。图片来源:Nat Commun.


这一成果近期发表在Nature Communications 上,文章的第一作者是中南大学博士研究生杨琼和中国农业科学院农业基因组研究所副研究员纪宏超


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

Ultra-fast and accurate electron ionization mass spectrum matching for compound identification with million-scale in-silico library

Qiong Yang, Hongchao, Zhenbo Xu, Yiming Li, Pingshan Wang, Jinyu Sun, Xiaqiong Fan, Hailiang Zhang, Hongmei LuZhimin Zhang 

Nat. Commun., 202314, 3722. DOI: 10.1038/s41467-023-39279-7


导师介绍

卢红梅

https://www.x-mol.com/university/faculty/15131 


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
动态系统的数学与计算机建模
热点论文一站获取
购书送好礼
天然纤维材料
口腔微生物
英语语言编辑翻译加编辑
材料学领域约200份+SCI期刊
定位全球科研英才
中国图象图形学学会合作刊
东北石油大学合作期刊
动物源性食品遗传学与育种
专业英语编辑服务
左智伟--多次发布
多次发布---上海中医药
广州
天大
清华
清华
北大
西安电子
中科院
南科大
ACS材料视界
down
wechat
bug