当前位置: X-MOL 学术Genet. Epidemiol. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
TWO‐SIGMA: A novel two‐component single cell model‐based association method for single‐cell RNA‐seq data
Genetic Epidemiology ( IF 2.1 ) Pub Date : 2020-09-29 , DOI: 10.1002/gepi.22361
Eric Van Buren 1 , Ming Hu 2 , Chen Weng 3 , Fulai Jin 3 , Yan Li 3 , Di Wu 1, 4 , Yun Li 1, 5, 6
Affiliation  

In this paper, we develop TWO‐SIGMA, a TWO‐component SInGle cell Model‐based Association method for differential expression (DE) analyses in single‐cell RNA‐seq (scRNA‐seq) data. The first component models the probability of “drop‐out” with a mixed‐effects logistic regression model and the second component models the (conditional) mean expression with a mixed‐effects negative binomial regression model. TWO‐SIGMA is extremely flexible in that it: (i) does not require a log‐transformation of the outcome, (ii) allows for overdispersed and zero‐inflated counts, (iii) accommodates a correlation structure between cells from the same individual via random effect terms, (iv) can analyze unbalanced designs (in which the number of cells does not need to be identical for all samples), (v) can control for additional sample‐level and cell‐level covariates including batch effects, (vi) provides interpretable effect size estimates, and (vii) enables general tests of DE beyond two‐group comparisons. To our knowledge, TWO‐SIGMA is the only method for analyzing scRNA‐seq data that can simultaneously accomplish each of these features. Simulations studies show that TWO‐SIGMA outperforms alternative regression‐based approaches in both type‐I error control and power enhancement when the data contains even moderate within‐sample correlation. A real data analysis using pancreas islet single‐cells exhibits the flexibility of TWO‐SIGMA and demonstrates that incorrectly failing to include random effect terms can have dramatic impacts on scientific conclusions. TWO‐SIGMA is implemented in the R package twosigma available at https://github.com/edvanburen/twosigma.

中文翻译:

TWO-SIGMA:一种新的基于双组分单细胞模型的单细胞 RNA-seq 数据关联方法

在本文中,我们开发了 TWO-SIGMA,这是一种基于双组分单细胞模型的关联方法,用于单细胞 RNA-seq (scRNA-seq) 数据中的差异表达 (DE) 分析。第一个组件使用混合效应逻辑回归模型对“辍学”概率进行建模,第二个组件使用混合效应负二项式回归模型对(条件)均值表达进行建模。TWO-SIGMA 非常灵活,因为它:(i) 不需要对结果进行对数转换,(ii) 允许过度分散和零膨胀计数,(iii) 适应来自同一个体的细胞之间的相关结构通过随机效应项,(iv) 可以分析不平衡设计(其中所有样本的单元数不需要相同),(v) 可以控制额外的样本水平和细胞水平协变量,包括批次效应,(vi) 提供可解释的效应大小估计,以及 (vii) 能够在两组比较之外对 DE 进行一般测试。据我们所知,TWO-SIGMA 是分析 scRNA-seq 数据的唯一方法,可以同时完成这些特征中的每一个。模拟研究表明,当数据包含甚至中等的样本内相关性时,TWO-SIGMA 在 I 类错误控制和功率增强方面都优于基于回归的替代方法。使用胰岛单细胞进行的真实数据分析展示了 TWO-SIGMA 的灵活性,并表明错误地未能包括随机效应项会对科学结论产生巨大影响。TWO-SIGMA 在 R 包中实现 (vi) 提供可解释的效应量估计,并且 (vii) 使 DE 的一般测试能够超越两组比较。据我们所知,TWO-SIGMA 是分析 scRNA-seq 数据的唯一方法,可以同时完成这些特征中的每一个。模拟研究表明,当数据包含甚至中等的样本内相关性时,TWO-SIGMA 在 I 类错误控制和功率增强方面都优于基于回归的替代方法。使用胰岛单细胞的真实数据分析展示了 TWO-SIGMA 的灵活性,并表明错误地未能包括随机效应项会对科学结论产生巨大影响。TWO-SIGMA 在 R 包中实现 (vi) 提供可解释的效应量估计,并且 (vii) 使 DE 的一般测试能够超越两组比较。据我们所知,TWO-SIGMA 是分析 scRNA-seq 数据的唯一方法,可以同时完成这些特征中的每一个。模拟研究表明,当数据包含甚至中等的样本内相关性时,TWO-SIGMA 在 I 类错误控制和功率增强方面都优于基于回归的替代方法。使用胰岛单细胞的真实数据分析展示了 TWO-SIGMA 的灵活性,并表明错误地未能包括随机效应项会对科学结论产生巨大影响。TWO-SIGMA 在 R 包中实现 TWO-SIGMA 是分析 scRNA-seq 数据的唯一方法,可以同时完成这些特征中的每一个。模拟研究表明,当数据包含甚至中等的样本内相关性时,TWO-SIGMA 在 I 类错误控制和功率增强方面都优于基于回归的替代方法。使用胰岛单细胞的真实数据分析展示了 TWO-SIGMA 的灵活性,并表明错误地未能包括随机效应项会对科学结论产生巨大影响。TWO-SIGMA 在 R 包中实现 TWO-SIGMA 是分析 scRNA-seq 数据的唯一方法,可以同时完成这些特征中的每一个。模拟研究表明,当数据包含甚至中等的样本内相关性时,TWO-SIGMA 在 I 类错误控制和功率增强方面都优于基于回归的替代方法。使用胰岛单细胞的真实数据分析展示了 TWO-SIGMA 的灵活性,并表明错误地未能包括随机效应项会对科学结论产生巨大影响。TWO-SIGMA 在 R 包中实现 模拟研究表明,当数据包含甚至中等的样本内相关性时,TWO-SIGMA 在 I 类错误控制和功率增强方面都优于基于回归的替代方法。使用胰岛单细胞的真实数据分析展示了 TWO-SIGMA 的灵活性,并表明错误地未能包括随机效应项会对科学结论产生巨大影响。TWO-SIGMA 在 R 包中实现 模拟研究表明,当数据包含甚至中等的样本内相关性时,TWO-SIGMA 在 I 类错误控制和功率增强方面都优于基于回归的替代方法。使用胰岛单细胞进行的真实数据分析展示了 TWO-SIGMA 的灵活性,并表明错误地未能包括随机效应项会对科学结论产生巨大影响。TWO-SIGMA 在 R 包中实现twosigma可在 https://github.com/edvanburen/twosigma 获得。
更新日期:2020-09-29
down
wechat
bug