当前位置: X-MOL 学术Mach. Learn. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Embedding to reference t-SNE space addresses batch effects in single-cell classification
Machine Learning ( IF 4.3 ) Pub Date : 2021-08-24 , DOI: 10.1007/s10994-021-06043-1
Pavlin G. Poličar 1 , Martin Stražar 1 , Blaž Zupan 1, 2
Affiliation  

Dimensionality reduction techniques, such as t-SNE, can construct informative visualizations of high-dimensional data. When jointly visualising multiple data sets, a straightforward application of these methods often fails; instead of revealing underlying classes, the resulting visualizations expose dataset-specific clusters. To circumvent these batch effects, we propose an embedding procedure that uses a t-SNE visualization constructed on a reference data set as a scaffold for embedding new data points. Each data instance from a new, unseen, secondary data is embedded independently and does not change the reference embedding. This prevents any interactions between instances in the secondary data and implicitly mitigates batch effects. We demonstrate the utility of this approach by analyzing six recently published single-cell gene expression data sets with up to tens of thousands of cells and thousands of genes. The batch effects in our studies are particularly strong as the data comes from different institutions using different experimental protocols. The visualizations constructed by our proposed approach are clear of batch effects, and the cells from secondary data sets correctly co-cluster with cells of the same type from the primary data. We also show the predictive power of our simple, visual classification approach in t-SNE space matches the accuracy of specialized machine learning techniques that consider the entire compendium of features that profile single cells.



中文翻译:

嵌入参考 t-SNE 空间解决了单细胞分类中的批量效应

降维技术,例如 t-SNE,可以构建高维数据的信息可视化。当联合可视化多个数据集时,这些方法的直接应用通常会失败;生成的可视化不是揭示底层类,而是揭示特定于数据集的集群。为了规避这些批量效应,我们提出了一种嵌入程序,该程序使用在参考数据集上构建的 t-SNE 可视化作为嵌入新数据点的支架。来自新的、看不见的、辅助数据的每个数据实例都是独立嵌入的,不会改变引用嵌入。这可以防止辅助数据中实例之间的任何交互,并隐式地减轻批处理影响。我们通过分析六个最近发表的单细胞基因表达数据集来证明这种方法的效用,这些数据集包含多达数万个细胞和数千个基因。我们研究中的批次效应特别强,因为数据来自使用不同实验方案的不同机构。由我们提出的方法构建的可视化没有批处理效应,并且来自辅助数据集的单元格与来自主数据的相同类型的单元格正确地共同聚类。我们还展示了我们在 t-SNE 空间中的简单视觉分类方法的预测能力与专门机器学习技术的准确性相匹配,这些技术考虑了描述单个细胞的整个特征纲要。我们研究中的批次效应特别强,因为数据来自使用不同实验方案的不同机构。由我们提出的方法构建的可视化没有批处理效应,并且来自辅助数据集的单元格与来自主数据的相同类型的单元格正确地共同聚类。我们还展示了我们在 t-SNE 空间中的简单视觉分类方法的预测能力与专门机器学习技术的准确性相匹配,这些技术考虑了描述单个细胞的整个特征纲要。我们研究中的批次效应特别强,因为数据来自使用不同实验方案的不同机构。由我们提出的方法构建的可视化没有批处理效应,并且来自辅助数据集的单元格与来自主数据的相同类型的单元格正确地共同聚类。我们还展示了我们在 t-SNE 空间中的简单视觉分类方法的预测能力与专门机器学习技术的准确性相匹配,这些技术考虑了描述单个细胞的整个特征纲要。并且来自辅助数据集的单元格与来自主数据的相同类型的单元格正确地共同聚类。我们还展示了我们在 t-SNE 空间中的简单视觉分类方法的预测能力与专门机器学习技术的准确性相匹配,这些技术考虑了描述单个细胞的整个特征纲要。并且来自辅助数据集的单元格与来自主数据的相同类型的单元格正确地共同聚类。我们还展示了我们在 t-SNE 空间中的简单视觉分类方法的预测能力与专门机器学习技术的准确性相匹配,这些技术考虑了描述单个细胞的整个特征纲要。

更新日期:2021-08-25
down
wechat
bug