当前位置 : X-MOL首页行业资讯 › Anal Chem:计算算法偏差——非靶向代谢组学中,自动化数据处理导致的定量偏差

Anal Chem:计算算法偏差——非靶向代谢组学中,自动化数据处理导致的定量偏差

代谢组学为疾病早期诊断,生物通路研究等等提供了大量重要信息。质谱(mass spectrometry)凭借高通量的数据采集和处理模式,被广泛应用于定量代谢组学研究中。代谢组定量分析的过程伴随着多种多样的偏差来源,根据来源的性质,通常意义上可被分为两类:来自于生物样品的偏差(biological variation), 例如个体性别、年龄等,以及来源于分析方法的偏差(analytical variation),例如仪器采集数据的信号偏差。偏差会导致样品组内的相对标准偏差(relative standard deviation)增加,阻碍对于潜在生物标志物的发现。


近期,英属哥伦比亚大学还涛教授(点击查看介绍)课题组报道了一种被广泛忽视的定量测量偏差来源:自动化数据处理导致的定量偏差,并命名为计算算法偏差 (computational variation)。该工作系统阐述了该偏差来源的特性,并提出了完整的解决方案以最小化该偏差,获得了更好的定量分析结果。相关成果发表在国际化学权威杂志Analytical Chemistry 上。


在代谢组学领域,由于检测到的代谢物信号数量庞大(>2000个每样品),人们通常依赖于计算机软件或程序算法,对液相色谱-质谱联用的原始数据进行自动化的信号采集,获得峰高或峰面积等定量分析数据。然而,现有的计算机算法难以精准确定峰高峰面积,尤其当化合物峰形较差时。因此,利用计算机自动处理数据会导致偏差,即计算算法偏差。这种偏差仅存在于计算算法被广泛应用的组学领域中。在此工作中,还涛教授课题组首先利用标准样品,阐述了计算算法偏差的存在(图1)。该实验选择了一款领域内常用的数据分析软件,MS-DIAL,说明了计算软件的使用会导致测量的相对标准偏差增加1-2%,意味着定量分析的可重复性下降。

图1. 计算算法偏差对于定量测量的影响


进一步地,该工作系统性分析了影响计算算法偏差的多种因素,包括样品类型、样品浓度、样品溶剂、液相色谱柱类型、数据处理软件等。其中,样品浓度和数据处理软件为主要影响因素,而其他因素均没有显著影响。样品浓度对于峰形有明显的影响,在低浓度时,峰形往往较差,因此软件更难确定峰面积,导致偏差增加。另外,不同的数据处理软件对于峰面积或峰高的测量,有着完全不同的机理,因此也会导致不同的偏差。在本研究中,两款软件,MS-DIAL以及XCMS具有不同的表现,MS-DIAL对于峰高的测定更加精确,而XCMS对于峰面积的测定更加精确。


由于定量测定通常会在峰面积与峰高中选择一种进行,该工作探索了哪种方法具有更低的计算算法偏差,从而在数据分析中可以选择偏差更小的方法。实验证明,对于给定的数据处理软件,峰高或峰面积的计算算法偏差,与样品浓度有明显关系。在此基础上,该工作提出了新的分析工作流程PHPA_precision(图2)。该流程包括数据采集、峰高和峰面积选择、数据转换三个模块。其原理是,通过对每个样品中每一个代谢物进行分析,在峰高和峰面积中进行选择,偏差较低的一个将被用于定量分析。为了解决峰高和峰面积无法直接比较的问题,该工作利用质量控制样品(quality control sample),将峰高和峰面积均转换为进样量(微升),实现了峰面积与峰高的统一。

图2. PHPA工作流程图


最后,该工作流程被应用于一项医学研究。该研究旨在揭示化疗对于白血病患者血液循环系统的影响(图3)。实验证明,PHPA_precision可以有效降低计算算法偏差,因而减小了总测量偏差。在此基础上,显著性检验(如t检验)的结果会更加准确。在使用该工作流程后,t检验的p值有了明显降低。与传统方法相比,该工作流程成功发现了新的潜在生物标志物,乙酰甘氨酸和谷氨酸。

图3 工作流程应用


小结


研究人员首次提出了计算算法偏差,并系统性阐述了该偏差与常规意义上的分析偏差的区别,阐述并证明了影响计算算法偏差的两个重要因素:数据处理软件以及样品浓度。针对于该偏差在代谢组学领域中的普遍存在,该工作提出了新的工作流程以最小化计算算法偏差。该工作流程被应用于研究“化疗对于白血病患者血液循环系统的影响”,发现了新的潜在生物标志物,证明了该工作流程对于生物医学研究的重要意义。研究人员期望在该生物信息学工具的帮助下,基于质谱的代谢组学研究结果可以更加可靠,从而促进在生物,医学领域中对于代谢过程的研究。


英属哥伦比亚大学的博士生于华旭为第一作者,还涛教授为通讯作者。


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

Computational Variation: An Underinvestigated Quantitative Variability Caused by Automated Data Processing in Untargeted Metabolomics

Huaxu Yu, Ying Chen, and Tao Huan*

Anal. Chem.202193, 8719–8728, DOI: 10.1021/acs.analchem.0c03381


导师介绍

还涛

https://www.x-mol.com/groups/huan_tao 


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
开学添书香,满额有好礼
加速出版服务
编辑润色服务全线九折优惠
传播分子、细胞和发育生物学领域的重大发现
环境管理资源效率浪费最小化
先进材料生物材料
聚焦分子细胞和生物体生物学
“转化老年科学”.正在征稿
化学工程
wiley你是哪种学术人格
细胞生物学
100+材料学期刊
人工智能新刊
图书出版流程
征集眼内治疗给药新技术
英语语言编辑服务
快速找到合适的投稿机会
动态系统的数学与计算机建模
热点论文一站获取
定位全球科研英才
中国图象图形学学会合作刊
东北石油大学合作期刊
动物源性食品遗传学与育种
专业英语编辑服务
多次发布---上海中医药
武汉大学
美国伊利诺
德国
美国
中山大学
西湖大学
药物所
普渡大学
东方理工
ACS材料视界
down
wechat
bug