当前位置: X-MOL 学术IEEE Trans. Signal Inf. Process. Over Netw. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Data-Driven Tree Transforms and Metrics
IEEE Transactions on Signal and Information Processing over Networks ( IF 3.0 ) Pub Date : 2018-09-01 , DOI: 10.1109/tsipn.2017.2743561
Gal Mishne 1 , Ronen Talmon 1 , Israel Cohen 1 , Ronald R Coifman 2 , Yuval Kluger 3
Affiliation  

We consider the analysis of high-dimensional data given in the form of a matrix with columns consisting of observations and rows consisting of features. Often the data is such that the observations do not reside on a regular grid, and the given order of the features is arbitrary and does not convey a notion of locality. Therefore, traditional transforms and metrics cannot be used for data organization and analysis. In this paper, our goal is to organize the data by defining an appropriate representation and metric such that they respect the smoothness and structure underlying the data. We also aim to generalize the joint clustering of observations and features in the case the data does not fall into clear disjoint groups. For this purpose, we propose multiscale data-driven transforms and metrics based on trees. Their construction is implemented in an iterative refinement procedure that exploits the co-dependencies between features and observations. Beyond the organization of a single dataset, our approach enables us to transfer the organization learned from one dataset to another and to integrate several datasets together. We present an application to breast cancer gene expression analysis: Learning metrics on the genes to cluster the tumor samples into cancer subtypes and validating the joint organization of both the genes and the samples. We demonstrate that using our approach to combine information from multiple gene expression cohorts, acquired by different profiling technologies, improves the clustering of tumor samples.

中文翻译:

数据驱动树变换和度量

我们考虑对以矩阵形式给出的高维数据进行分析,矩阵的列由观察值组成,行由特征组成。通常,数据是这样的:观测值不驻留在规则的网格上,特征的给定顺序是任意的,并且不传达局部性的概念。因此,传统的转换和指标不能用于数据的组织和分析。在本文中,我们的目标是通过定义适当的表示形式和度量标准来组织数据,以使它们尊重数据基础的平滑度和结构。我们还旨在在数据不属于明显不相交的组的情况下,对观测值和特征的联合聚类进行概括。为此,我们提出了基于树的多尺度数据驱动的变换和度量。它们的构造是在迭代细化过程中实现的,该过程利用了特征和观测值之间的相互依赖性。除了单个数据集的组织之外,我们的方法还使我们能够将从一个数据集学到的组织转移到另一个数据集,并将多个数据集整合在一起。我们提出了一种在乳腺癌基因表达分析中的应用:学习有关基因的度量标准,以将肿瘤样本聚类为癌症亚型,并验证基因和样本的联合组织。我们证明了使用我们的方法来结合来自不同基因分析技术的多个基因表达队列的信息,可以改善肿瘤样品的聚类。除了单个数据集的组织之外,我们的方法还使我们能够将从一个数据集学到的组织转移到另一个数据集,并将多个数据集整合在一起。我们提出了一种在乳腺癌基因表达分析中的应用:学习有关基因的度量标准,以将肿瘤样本聚类为癌症亚型,并验证基因和样本的联合组织。我们证明了使用我们的方法来结合来自不同基因分析技术的多个基因表达队列的信息,可以改善肿瘤样品的聚类。除了单个数据集的组织之外,我们的方法还使我们能够将从一个数据集学到的组织转移到另一个数据集,并将多个数据集整合在一起。我们提出了一种在乳腺癌基因表达分析中的应用:学习有关基因的度量标准,以将肿瘤样本聚类为癌症亚型,并验证基因和样本的联合组织。我们证明了使用我们的方法来结合来自不同基因分析技术的多个基因表达队列的信息,可以改善肿瘤样品的聚类。学习有关基因的度量标准,以将肿瘤样本聚类为癌症亚型,并验证基因和样本的联合组织。我们证明了使用我们的方法来结合来自不同基因分析技术的多个基因表达队列的信息,可以改善肿瘤样品的聚类。学习有关基因的度量标准,以将肿瘤样本聚类为癌症亚型,并验证基因和样本的联合组织。我们证明了使用我们的方法来结合来自不同基因分析技术的多个基因表达队列的信息,可以改善肿瘤样品的聚类。
更新日期:2018-09-01
down
wechat
bug