当前位置: X-MOL 学术BMC Bioinform. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Simulating ComBat: how batch correction can lead to the systematic introduction of false positive results in DNA methylation microarray studies.
BMC Bioinformatics ( IF 3 ) Pub Date : 2020-06-30 , DOI: 10.1186/s12859-020-03559-6
Tristan Zindler 1 , Helge Frieling 1 , Alexandra Neyazi 1 , Stefan Bleich 1 , Eva Friedel 2, 3
Affiliation  

Systematic technical effects—also called batch effects—are a considerable challenge when analyzing DNA methylation (DNAm) microarray data, because they can lead to false results when confounded with the variable of interest. Methods to correct these batch effects are error-prone, as previous findings have shown. Here, we demonstrate how using the R function ComBat to correct simulated Infinium HumanMethylation450 BeadChip (450 K) and Infinium MethylationEPIC BeadChip Kit (EPIC) DNAm data can lead to a large number of false positive results under certain conditions. We further provide a detailed assessment of the consequences for the highly relevant problem of p-value inflation with subsequent false positive findings after application of the frequently used ComBat method. Using ComBat to correct for batch effects in randomly generated samples produced alarming numbers of false discovery rate (FDR) and Bonferroni-corrected (BF) false positive results in unbalanced as well as in balanced sample distributions in terms of the relation between the outcome of interest variable and the technical position of the sample during the probe measurement. Both sample size and number of batch factors (e.g. number of chips) were systematically simulated to assess the probability of false positive findings. The effect of sample size was simulated using n = 48 up to n = 768 randomly generated samples. Increasing the number of corrected factors led to an exponential increase in the number of false positive signals. Increasing the number of samples reduced, but did not completely prevent, this effect. Using the approach described, we demonstrate, that using ComBat for batch correction in DNAm data can lead to false positive results under certain conditions and sample distributions. Our results are thus contrary to previous publications, considering a balanced sample distribution as unproblematic when using ComBat. We do not claim completeness in terms of reporting all technical conditions and possible solutions of the occurring problems as we approach the problem from a clinician’s perspective and not from that of a computer scientist. With our approach of simulating data, we provide readers with a simple method to assess the probability of false positive findings in DNAm microarray data analysis pipelines.

中文翻译:

模拟 ComBat:批次校正如何导致在 DNA 甲基化微阵列研究中系统引入假阳性结果。

在分析 DNA 甲基化 (DNAm) 微阵列数据时,系统技术效应(也称为批次效应)是一个相当大的挑战,因为当与感兴趣的变量混淆时,它们会导致错误的结果。正如之前的研究结果所表明的那样,纠正这些批次效应的方法容易出错。在这里,我们演示了如何使用 R 函数 ComBat 来校正模拟的 Infinium HumanMethylation450 BeadChip (450 K) 和 Infinium MethylationEPIC BeadChip Kit (EPIC) DNAm 数据在某些条件下会导致大量假阳性结果。在应用常用的 ComBat 方法后,我们进一步详细评估了 p 值膨胀的高度相关问题的后果以及随后的假阳性结果。使用 ComBat 来校正随机生成的样本中的批次效应会产生令人震惊的错误发现率 (FDR) 和 Bonferroni 校正 (BF) 假阳性结果,就感兴趣的结果之间的关系而言,在不平衡和平衡的样本分布中探针测量期间样品的变量和技术位置。系统地模拟样本大小和批次因素的数量(例如芯片数量)以评估假阳性结果的概率。使用 n = 48 到 n = 768 个随机生成的样本来模拟样本大小的影响。增加校正因子的数量会导致假阳性信号的数量呈指数增长。增加样本数量减少了,但并没有完全阻止这种影响。使用所描述的方法,我们证明,在特定条件和样本分布下,使用 ComBat 对 DNAm 数据进行批量校正会导致假阳性结果。因此,我们的结果与之前的出版物相反,认为在使用 ComBat 时平衡样本分布没有问题。由于我们是从临床医生的角度而非计算机科学家的角度处理问题,因此我们不会声称报告所有技术条件和发生问题的可能解决方案的完整性。通过我们模拟数据的方法,我们为读者提供了一种简单的方法来评估 DNAm 微阵列数据分析管道中假阳性结果的概率。因此,我们的结果与之前的出版物相反,认为在使用 ComBat 时平衡样本分布没有问题。由于我们是从临床医生的角度而非计算机科学家的角度处理问题,因此我们不会声称报告所有技术条件和发生问题的可能解决方案的完整性。通过我们模拟数据的方法,我们为读者提供了一种简单的方法来评估 DNAm 微阵列数据分析管道中假阳性结果的概率。因此,我们的结果与之前的出版物相反,认为在使用 ComBat 时平衡样本分布没有问题。由于我们是从临床医生的角度而非计算机科学家的角度处理问题,因此我们不会声称报告所有技术条件和发生问题的可能解决方案的完整性。通过我们模拟数据的方法,我们为读者提供了一种简单的方法来评估 DNAm 微阵列数据分析管道中假阳性结果的概率。由于我们是从临床医生的角度而非计算机科学家的角度处理问题,因此我们不会声称报告所有技术条件和发生问题的可能解决方案的完整性。通过我们模拟数据的方法,我们为读者提供了一种简单的方法来评估 DNAm 微阵列数据分析管道中假阳性结果的概率。由于我们是从临床医生的角度而非计算机科学家的角度处理问题,因此我们不会声称报告所有技术条件和发生问题的可能解决方案的完整性。通过我们模拟数据的方法,我们为读者提供了一种简单的方法来评估 DNAm 微阵列数据分析管道中假阳性结果的概率。
更新日期:2020-06-30
down
wechat
bug