呼出气中含有大量挥发性化合物,并且相较于传统体液样本(如血液、尿液),呼气样本采集更为便捷且无创,这使其成为一种极具潜力的生物样本,对其中代谢物的全面分析对于深入理解人体健康与疾病具有重要意义。在众多呼气分析技术中,在线分析无需样本前处理,可以将单个样本的检测时间缩短至10 分钟以内,同时最大程度减少样本损失。常用的在线分析方法中,二次电喷雾电离高分辨质谱技术(SESI-HRMS)可以实现对呼气代谢物的最高覆盖度的检测。然而,SESI-HRMS 复杂且独特的数据结构为数据处理带来了挑战。其质谱信号形状并非典型的高斯分布,而更接近方波模式,使得传统用于液相色谱质谱(LC-MS) 数据处理的方法难以适用。此外,现有 SESI-HRMS 数据处理方法多为闭源。因此,开发基于信号特征解析的新型数据处理框架,构建兼顾峰识别精度与计算效率的算法模型,已成为提升数据解析可靠性、推动呼气代谢组学临床转化的关键科学问题。
近日,暨南大学李雪研究员课题组与英属哥伦比亚大学还涛教授课题组合作开发了一款名为BreathXplorer的开源Python包,专门用于处理基于SESI-HRMS的实时呼气数据。该工具的推出为呼气代谢组学研究提供了强有力的技术支持,有望推动该领域的发展。

BreathXplorer 由四个核心模块组成。首先,采用拓扑算法或高斯混合模型(GMM)精确确定每次呼气的起点和终点。随后,利用基于密度的空间聚类算法(DBSCAN)对属于同一代谢特征的m/z值进行聚类,并结合强度相对标准偏差(RSD)提取真实的呼气代谢特征。此外,BreathXplorer还具备不同样本间的特征对齐以及MS/MS数据提取功能。对从SESI-HRMS呼气数据中提取的代谢特征进行手动验证表明,BreathXplorer在识别每次呼气的起点和终点方面可实现100%的准确度,并能够精准获取每个代谢特征的响应强度值。在基于SESI-HRMS的运动呼气代谢组学概念验证研究中,BreathXplorer成功揭示了多种与运动相关的显著代谢物变化,充分展示了其在实时呼气代谢分析中的强大潜力。

图2 BreathXplorer工作流程示意图。(A)拓扑算法或GMM算法识别呼气区间。(B)DBSCAN算法提取呼气代谢特征。(C)特征对齐和非呼气特征筛选。(D)输出对齐后的特征矩阵,并将相应的MS/MS数据存储为.msp文件。
第一作者:王钰凯,汤志峰
通讯作者:李雪,还涛
Reference:
Yukai Wang†, Zhifeng Tang†, Tingting Zhao, Jianming Yang, Wei Zhang, Xue Li*, Tao Huan*. BreathXplorer: processing online breathomics data generated from direct analysis using high-resolution mass spectrometry. Journal of the American Society for Mass Spectrometry, 2024, 35(8), 1818–1825.
原文链接:https://pubs.acs.org/doi/10.1021/jasms.4c00152