当前位置:
X-MOL 学术
›
arXiv.cs.LG
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Classification-Based Approach to Semi-Supervised Clustering with Pairwise Constraints
arXiv - CS - Machine Learning Pub Date : 2020-01-18 , DOI: arxiv-2001.06720 Marek \'Smieja, {\L}ukasz Struski, M\'ario A. T. Figueiredo
arXiv - CS - Machine Learning Pub Date : 2020-01-18 , DOI: arxiv-2001.06720 Marek \'Smieja, {\L}ukasz Struski, M\'ario A. T. Figueiredo
In this paper, we introduce a neural network framework for semi-supervised
clustering (SSC) with pairwise (must-link or cannot-link) constraints. In
contrast to existing approaches, we decompose SSC into two simpler
classification tasks/stages: the first stage uses a pair of Siamese neural
networks to label the unlabeled pairs of points as must-link or cannot-link;
the second stage uses the fully pairwise-labeled dataset produced by the first
stage in a supervised neural-network-based clustering method. The proposed
approach, S3C2 (Semi-Supervised Siamese Classifiers for Clustering), is
motivated by the observation that binary classification (such as assigning
pairwise relations) is usually easier than multi-class clustering with partial
supervision. On the other hand, being classification-based, our method solves
only well-defined classification problems, rather than less well specified
clustering tasks. Extensive experiments on various datasets demonstrate the
high performance of the proposed method.
中文翻译:
基于分类的具有成对约束的半监督聚类方法
在本文中,我们介绍了一种用于具有成对(必须链接或不能链接)约束的半监督聚类 (SSC) 的神经网络框架。与现有方法相比,我们将 SSC 分解为两个更简单的分类任务/阶段:第一阶段使用一对连体神经网络将未标记的点对标记为必须链接或无法链接;第二阶段使用第一阶段在基于监督神经网络的聚类方法中生成的完全成对标记的数据集。所提出的方法 S3C2(用于聚类的半监督连体分类器)的动机是观察到二元分类(例如分配成对关系)通常比具有部分监督的多类聚类更容易。另一方面,基于分类,我们的方法只解决定义明确的分类问题,而不是不太明确的聚类任务。对各种数据集的大量实验证明了所提出方法的高性能。
更新日期:2020-01-22
中文翻译:
基于分类的具有成对约束的半监督聚类方法
在本文中,我们介绍了一种用于具有成对(必须链接或不能链接)约束的半监督聚类 (SSC) 的神经网络框架。与现有方法相比,我们将 SSC 分解为两个更简单的分类任务/阶段:第一阶段使用一对连体神经网络将未标记的点对标记为必须链接或无法链接;第二阶段使用第一阶段在基于监督神经网络的聚类方法中生成的完全成对标记的数据集。所提出的方法 S3C2(用于聚类的半监督连体分类器)的动机是观察到二元分类(例如分配成对关系)通常比具有部分监督的多类聚类更容易。另一方面,基于分类,我们的方法只解决定义明确的分类问题,而不是不太明确的聚类任务。对各种数据集的大量实验证明了所提出方法的高性能。