当前位置: X-MOL 学术Inf. Process. Manag. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A novel regularized asymmetric non-negative matrix factorization for text clustering
Information Processing & Management ( IF 8.6 ) Pub Date : 2021-07-28 , DOI: 10.1016/j.ipm.2021.102694
Mehdi Hosseinzadeh Aghdam 1 , Mohammad Daryaie Zanjani 2
Affiliation  

Non-negative matrix factorization (NMF) is a dimension reduction method that extracts semantic features from high-dimensional data. Most of the developed optimization methods for NMF only pay attention to how each feature vector of factorized matrices should be modeled, and ignore the relationships among feature vectors. Such a relationship among documents’ feature vectors provides better factorization for text clustering. This paper proposes a novel regularized asymmetric non-negative matrix factorization (RANMF) for text clustering. The proposed method puts regularized constraints on pairwise feature vectors by applying penalties using distance-based measures. We design a new cost function based on the Kullback–Leibler divergence and develop an optimization scheme to solve the cost function by suggesting novel multiplicative updating rules. The proposed method considers the documents from the same cluster closely together in the new representation space. Hence, the acquired parts-based representation has consistent cluster labeling with the original space and has a more discriminating ability. The complexity analysis showed that RANMF does not increase time cost by applying regularizers when comparing with the original NMF. Regarding experiments, the proposed RANMF converges very fast because it terminates in less than ten iterations. The complete proof of convergence and experimental results on the benchmark data sets demonstrate that the proposed multiplicative updating rules converge fast and achieve superior results compared to other algorithms.



中文翻译:

一种用于文本聚类的新型正则化非对称非负矩阵分解

非负矩阵分解(NMF)是一种从高维数据中提取语义特征的降维方法。大多数已开发的 NMF 优化方法只关注分解矩阵的每个特征向量应该如何建模,而忽略了特征向量之间的关系。文档特征向量之间的这种关系为文本聚类提供了更好的分解。本文提出了一种用于文本聚类的新型正则化非对称非负矩阵分解(RANMF)。所提出的方法通过使用基于距离的度量应用惩罚来对成对特征向量施加正则化约束。我们基于 Kullback-Leibler 散度设计了一个新的成本函数,并通过提出新的乘法更新规则开发了一个优化方案来解决成本函数。所提出的方法在新的表示空间中将来自同一簇的文档紧密地考虑在一起。因此,获得的基于部件的表示与原始空间具有一致的聚类标记,并且具有更强的判别能力。复杂性分析表明,与原始 NMF 相比,RANMF 不会通过应用正则化器增加时间成本。关于实验,提出的 RANMF 收敛速度非常快,因为它在不到 10 次迭代中就终止了。基准数据集上的完整收敛证明和实验结果表明,与其他算法相比,所提出的乘法更新规则收敛速度快并取得了优异的结果。获取的基于部件的表示与原始空间具有一致的聚类标记,并且具有更强的判别能力。复杂性分析表明,与原始 NMF 相比,RANMF 不会通过应用正则化器增加时间成本。关于实验,提出的 RANMF 收敛速度非常快,因为它在不到 10 次迭代中就终止了。基准数据集上的完整收敛证明和实验结果表明,与其他算法相比,所提出的乘法更新规则收敛速度快并取得了优异的结果。获取的基于部件的表示与原始空间具有一致的聚类标记,并且具有更强的判别能力。复杂性分析表明,与原始 NMF 相比,RANMF 不会通过应用正则化器增加时间成本。关于实验,提出的 RANMF 收敛速度非常快,因为它在不到 10 次迭代中就终止了。基准数据集上的完整收敛证明和实验结果表明,与其他算法相比,所提出的乘法更新规则收敛速度快并取得了优异的结果。关于实验,提出的 RANMF 收敛速度非常快,因为它在不到 10 次迭代中就终止了。基准数据集上的完整收敛证明和实验结果表明,与其他算法相比,所提出的乘法更新规则收敛速度快并取得了优异的结果。关于实验,提出的 RANMF 收敛速度非常快,因为它在不到 10 次迭代中就终止了。基准数据集上的完整收敛证明和实验结果表明,与其他算法相比,所提出的乘法更新规则收敛速度快并取得了优异的结果。

更新日期:2021-07-28
down
wechat
bug