当前位置 : X-MOL首页行业资讯 › Anal Chem:计算算法偏差——非靶向代谢组学中,自动化数据处理导致的定量偏差

Anal Chem:计算算法偏差——非靶向代谢组学中,自动化数据处理导致的定量偏差

代谢组学为疾病早期诊断,生物通路研究等等提供了大量重要信息。质谱(mass spectrometry)凭借高通量的数据采集和处理模式,被广泛应用于定量代谢组学研究中。代谢组定量分析的过程伴随着多种多样的偏差来源,根据来源的性质,通常意义上可被分为两类:来自于生物样品的偏差(biological variation), 例如个体性别、年龄等,以及来源于分析方法的偏差(analytical variation),例如仪器采集数据的信号偏差。偏差会导致样品组内的相对标准偏差(relative standard deviation)增加,阻碍对于潜在生物标志物的发现。


近期,英属哥伦比亚大学还涛教授(点击查看介绍)课题组报道了一种被广泛忽视的定量测量偏差来源:自动化数据处理导致的定量偏差,并命名为计算算法偏差 (computational variation)。该工作系统阐述了该偏差来源的特性,并提出了完整的解决方案以最小化该偏差,获得了更好的定量分析结果。相关成果发表在国际化学权威杂志Analytical Chemistry 上。


在代谢组学领域,由于检测到的代谢物信号数量庞大(>2000个每样品),人们通常依赖于计算机软件或程序算法,对液相色谱-质谱联用的原始数据进行自动化的信号采集,获得峰高或峰面积等定量分析数据。然而,现有的计算机算法难以精准确定峰高峰面积,尤其当化合物峰形较差时。因此,利用计算机自动处理数据会导致偏差,即计算算法偏差。这种偏差仅存在于计算算法被广泛应用的组学领域中。在此工作中,还涛教授课题组首先利用标准样品,阐述了计算算法偏差的存在(图1)。该实验选择了一款领域内常用的数据分析软件,MS-DIAL,说明了计算软件的使用会导致测量的相对标准偏差增加1-2%,意味着定量分析的可重复性下降。

图1. 计算算法偏差对于定量测量的影响


进一步地,该工作系统性分析了影响计算算法偏差的多种因素,包括样品类型、样品浓度、样品溶剂、液相色谱柱类型、数据处理软件等。其中,样品浓度和数据处理软件为主要影响因素,而其他因素均没有显著影响。样品浓度对于峰形有明显的影响,在低浓度时,峰形往往较差,因此软件更难确定峰面积,导致偏差增加。另外,不同的数据处理软件对于峰面积或峰高的测量,有着完全不同的机理,因此也会导致不同的偏差。在本研究中,两款软件,MS-DIAL以及XCMS具有不同的表现,MS-DIAL对于峰高的测定更加精确,而XCMS对于峰面积的测定更加精确。


由于定量测定通常会在峰面积与峰高中选择一种进行,该工作探索了哪种方法具有更低的计算算法偏差,从而在数据分析中可以选择偏差更小的方法。实验证明,对于给定的数据处理软件,峰高或峰面积的计算算法偏差,与样品浓度有明显关系。在此基础上,该工作提出了新的分析工作流程PHPA_precision(图2)。该流程包括数据采集、峰高和峰面积选择、数据转换三个模块。其原理是,通过对每个样品中每一个代谢物进行分析,在峰高和峰面积中进行选择,偏差较低的一个将被用于定量分析。为了解决峰高和峰面积无法直接比较的问题,该工作利用质量控制样品(quality control sample),将峰高和峰面积均转换为进样量(微升),实现了峰面积与峰高的统一。

图2. PHPA工作流程图


最后,该工作流程被应用于一项医学研究。该研究旨在揭示化疗对于白血病患者血液循环系统的影响(图3)。实验证明,PHPA_precision可以有效降低计算算法偏差,因而减小了总测量偏差。在此基础上,显著性检验(如t检验)的结果会更加准确。在使用该工作流程后,t检验的p值有了明显降低。与传统方法相比,该工作流程成功发现了新的潜在生物标志物,乙酰甘氨酸和谷氨酸。

图3 工作流程应用


小结


研究人员首次提出了计算算法偏差,并系统性阐述了该偏差与常规意义上的分析偏差的区别,阐述并证明了影响计算算法偏差的两个重要因素:数据处理软件以及样品浓度。针对于该偏差在代谢组学领域中的普遍存在,该工作提出了新的工作流程以最小化计算算法偏差。该工作流程被应用于研究“化疗对于白血病患者血液循环系统的影响”,发现了新的潜在生物标志物,证明了该工作流程对于生物医学研究的重要意义。研究人员期望在该生物信息学工具的帮助下,基于质谱的代谢组学研究结果可以更加可靠,从而促进在生物,医学领域中对于代谢过程的研究。


英属哥伦比亚大学的博士生于华旭为第一作者,还涛教授为通讯作者。


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

Computational Variation: An Underinvestigated Quantitative Variability Caused by Automated Data Processing in Untargeted Metabolomics

Huaxu Yu, Ying Chen, and Tao Huan*

Anal. Chem.202193, 8719–8728, DOI: 10.1021/acs.analchem.0c03381


导师介绍

还涛

https://www.x-mol.com/groups/huan_tao 


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

Biology
Chemistry
Physics
scientific reports
全新官网上线
辐射及放射性同位素研究
APPLIED
organic materials
欢迎新作者ACS
中国作者高影响力研究精选
虚拟特刊
屿渡论文,编辑服务
浙大
南方科技大学
南开大学
清华大学
赵东元
深圳湾实验室
深圳先进院
曹亮
李静
陈永胜
曹荣
隐藏1h前已浏览文章
课题组网站
新版X-MOL期刊搜索和高级搜索功能介绍
ACS材料视界
华辉
天合科研
x-mol收录
试剂库存
down
wechat
bug