当前位置: X-MOL 学术Expert Syst. Appl. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Polygonal Coordinate System: visualizing high-dimensional data using geometric DR, and a deterministic version of t-SNE
Expert Systems with Applications ( IF 7.5 ) Pub Date : 2021-02-26 , DOI: 10.1016/j.eswa.2021.114741
Caio Flexa , Walisson Gomes , Igor Moreira , Ronnie Alves , Claudomiro Sales

Dimensionality Reduction (DR) is useful to understand high-dimensional data. It attracts wide attention from industry and academia and is employed in areas such as machine learning, data mining and pattern recognition. This work presents a geometric approach to DR termed Polygonal Coordinate System (PCS), capable of representing multidimensional data in two or three dimensions while preserving their inherent overall structure by taking advantage of a polygonal interface bridging high- and low-dimensional spaces. PCS can handle Big Data by adopting an incremental, geometric DR with linear-time complexity. A new version of t-Distributed Stochastic Neighbor Embedding (t-SNE), a state-of-the-art algorithm for DR, is also provided. It employs a PCS-based deterministic strategy and is named t-Distributed Deterministic Neighbor Embedding (t-DNE). Several synthetic and real data sets were used as well-known real-world problem archetypes in our benchmark, providing a means to evaluate PCS and t-DNE against four embedding-based DR algorithms: two linear-transformation ones (Principal Component Analysis and Non-negative Matrix Factorization) and two nonlinear ones (t-SNE and Sammon’s Mapping). Statistical comparisons of the execution times of these algorithms, by the Friedman’s significance test, highlight the efficiency of PCS in data embedding. PCS tends to surpass its counterparts in several aspects explored in this work, including asymptotic time and space complexity, preservation of global data-inherent structures, number of hyperparameters, and applicability to unobserved data.



中文翻译:

多边形坐标系:使用几何DR和确定性版本的t-SNE可视化高维数据

降维(DR)对于理解高维数据很有用。它引起了工业界和学术界的广泛关注,并被用于机器学习,数据挖掘和模式识别等领域。这项工作提出了一种称为DR的多边形坐标系(PCS)的几何方法,该方法能够表示二维或三维多维数据,同时通过利用桥接高维和低维空间的多边形界面来保留其固有的整体结构。PCS可以通过采用线性时间复杂性的增量式几何灾难恢复来处理大数据。还提供了新版本的t分布式随机邻居嵌入(t-SNE),这是一种用于DR的最新算法。它采用基于PCS的确定性策略,并被称为t分布式确定性邻居嵌入(t-DNE)。在我们的基准测试中,使用了几个综合数据集和真实数据集作为众所周知的真实世界问题原型,从而提供了一种针对四种基于嵌入的DR算法评估PCS和t-DNE的方法:两种线性变换算法(主成分分析和非线性) -负矩阵分解)和两个非线性变量(t-SNE和Sammon映射)。通过弗里德曼的显着性检验,对这些算法的执行时间进行统计比较,突出了PCS在数据嵌入中的效率。在这项工作中探索的几个方面,PCS往往会超过其同类产品,包括渐进时间和空间复杂性,全局数据固有结构的保留,超参数的数量以及对未观测数据的适用性。提供了一种针对四种基于嵌入的DR算法评估PCS和t-DNE的方法:两种线性变换算法(主成分分析和非负矩阵分解)和两种非线性方法(t-SNE和Sammon映射)。通过弗里德曼的显着性检验,对这些算法的执行时间进行统计比较,突出了PCS在数据嵌入中的效率。在这项工作中探索的几个方面,PCS往往会超过其同类产品,包括渐进时间和空间复杂性,全局数据固有结构的保留,超参数的数量以及对未观测数据的适用性。提供了一种针对四种基于嵌入的DR算法评估PCS和t-DNE的方法:两种线性变换算法(主成分分析和非负矩阵分解)和两种非线性方法(t-SNE和Sammon映射)。通过弗里德曼的显着性检验,对这些算法的执行时间进行统计比较,突出了PCS在数据嵌入中的效率。在这项工作中探索的几个方面,PCS往往会超过其同类产品,包括渐进时间和空间复杂性,全局数据固有结构的保留,超参数的数量以及对未观测数据的适用性。两个线性变换(主成分分析和非负矩阵分解)和两个非线性变换(t-SNE和Sammon映射)。通过弗里德曼的显着性检验,对这些算法的执行时间进行统计比较,突出了PCS在数据嵌入中的效率。在这项工作中探索的几个方面,PCS往往会超过其同类产品,包括渐进时间和空间复杂性,全局数据固有结构的保留,超参数的数量以及对未观测数据的适用性。两个线性变换(主成分分析和非负矩阵分解)和两个非线性变换(t-SNE和Sammon映射)。通过弗里德曼的显着性检验,对这些算法的执行时间进行统计比较,突出了PCS在数据嵌入中的效率。在这项工作中探索的几个方面,PCS往往会超过其同类产品,包括渐进时间和空间复杂性,全局数据固有结构的保留,超参数的数量以及对未观测数据的适用性。

更新日期:2021-02-26
down
wechat
bug