当前位置:
X-MOL 学术
›
arXiv.cs.CG
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Socially Fair k-Means Clustering
arXiv - CS - Computational Geometry Pub Date : 2020-06-17 , DOI: arxiv-2006.10085 Mehrdad Ghadiri, Samira Samadi, Santosh Vempala
arXiv - CS - Computational Geometry Pub Date : 2020-06-17 , DOI: arxiv-2006.10085 Mehrdad Ghadiri, Samira Samadi, Santosh Vempala
We show that the popular k-means clustering algorithm (Lloyd's heuristic),
used for a variety of scientific data, can result in outcomes that are
unfavorable to subgroups of data (e.g., demographic groups). Such biased
clusterings can have deleterious implications for human-centric applications
such as resource allocation. We present a fair k-means objective and algorithm
to choose cluster centers that provide equitable costs for different groups.
The algorithm, Fair-Lloyd, is a modification of Lloyd's heuristic for k-means,
inheriting its simplicity, efficiency, and stability. In comparison with
standard Lloyd's, we find that on benchmark datasets, Fair-Lloyd exhibits
unbiased performance by ensuring that all groups have equal costs in the output
k-clustering, while incurring a negligible increase in running time, thus
making it a viable fair option wherever k-means is currently used.
中文翻译:
社会公平 k 均值聚类
我们表明,用于各种科学数据的流行 k 均值聚类算法(劳埃德启发式算法)可能会导致对数据子组(例如人口统计组)不利的结果。这种有偏见的聚类可能会对以人为中心的应用程序(例如资源分配)产生有害影响。我们提出了一个公平的 k-means 目标和算法来选择为不同群体提供公平成本的集群中心。Fair-Lloyd 算法是对 K-means 的 Lloyd 启发式的修改,继承了其简单性、效率和稳定性。与标准 Lloyd's 相比,我们发现在基准数据集上,Fair-Lloyd 通过确保所有组在输出 k 聚类中具有相同的成本,同时运行时间的增加可以忽略不计,从而表现出无偏性能,
更新日期:2020-10-30
中文翻译:
社会公平 k 均值聚类
我们表明,用于各种科学数据的流行 k 均值聚类算法(劳埃德启发式算法)可能会导致对数据子组(例如人口统计组)不利的结果。这种有偏见的聚类可能会对以人为中心的应用程序(例如资源分配)产生有害影响。我们提出了一个公平的 k-means 目标和算法来选择为不同群体提供公平成本的集群中心。Fair-Lloyd 算法是对 K-means 的 Lloyd 启发式的修改,继承了其简单性、效率和稳定性。与标准 Lloyd's 相比,我们发现在基准数据集上,Fair-Lloyd 通过确保所有组在输出 k 聚类中具有相同的成本,同时运行时间的增加可以忽略不计,从而表现出无偏性能,