当前位置: X-MOL 学术Artif. Intell. Rev. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A self-verifying clustering approach to unsupervised matching of product titles
Artificial Intelligence Review ( IF 12.0 ) Pub Date : 2020-02-13 , DOI: 10.1007/s10462-020-09807-8
Leonidas Akritidis , Athanasios Fevgas , Panayiotis Bozanis , Christos Makris

The continuous growth of the e-commerce industry has rendered the problem of product retrieval particularly important. As more enterprises move their activities on the Web, the volume and the diversity of the product-related information increase quickly. These factors make it difficult for the users to identify and compare the features of their desired products. Recent studies proved that the standard similarity metrics cannot effectively identify identical products, since similar titles often refer to different products and vice-versa. Other studies employ external data sources to enrich the titles; these solutions are rather impractical, since the process of fetching external data is inefficient. In this paper we introduce UPM, an unsupervised algorithm for matching products by their titles that is independent of any external sources. UPM consists of three stages. During the first stage, the algorithm analyzes the titles and extracts combinations of words out of them. These combinations are evaluated in stage 2 according to several criteria, and the most appropriate of them are selected to form the initial clusters. The third phase is a post-processing verification stage that refines the initial clusters by correcting the erroneous matches. This stage is designed to operate in combination with all clustering approaches, especially when the data possess properties that prevent the co-existence of two data points within the same cluster. The experimental evaluation of UPM with multiple datasets demonstrates its superiority against the state-of-the-art clustering approaches and string similarity metrics, in terms of both efficiency and effectiveness.

中文翻译:

一种无监督产品标题匹配的自验证聚类方法

电子商务行业的不断发展,使得商品检索问题显得尤为重要。随着越来越多的企业将其活动转移到 Web 上,与产品相关的信息的数量和多样性迅速增加。这些因素使用户难以识别和比较其所需产品的功能。最近的研究证明,标准的相似性度量不能有效地识别相同的产品,因为相似的标题通常指的是不同的产品,反之亦然。其他研究使用外部数据源来丰富标题;这些解决方案相当不切实际,因为获取外部数据的过程效率低下。在本文中,我们介绍了 UPM,这是一种无监督的算法,用于根据产品的标题匹配产品,独立于任何外部来源。芬欧汇川由三个阶段组成。在第一阶段,算法分析标题并从中提取单词组合。这些组合在第 2 阶段根据几个标准进行评估,并选择最合适的组合来形成初始集群。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。在第一阶段,算法分析标题并从中提取单词组合。这些组合在第 2 阶段根据几个标准进行评估,并选择最合适的组合来形成初始集群。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。在第一阶段,算法分析标题并从中提取单词组合。这些组合在第 2 阶段根据几个标准进行评估,并选择最合适的组合来形成初始集群。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。该算法分析标题并从中提取单词组合。这些组合在第 2 阶段根据几个标准进行评估,并选择最合适的组合来形成初始集群。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,特别是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。该算法分析标题并从中提取单词组合。这些组合在第 2 阶段根据几个标准进行评估,并选择最合适的组合来形成初始集群。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。这些组合在第 2 阶段根据几个标准进行评估,并选择最合适的组合来形成初始集群。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。这些组合在第 2 阶段根据几个标准进行评估,并选择最合适的组合来形成初始集群。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。第三阶段是后处理验证阶段,通过纠正错误匹配来细化初始集群。此阶段旨在与所有聚类方法结合使用,尤其是当数据具有阻止同一聚类中两个数据点共存的属性时。具有多个数据集的 UPM 的实验评估证明了它在效率和有效性方面相对于最先进的聚类方法和字符串相似性度量的优越性。
更新日期:2020-02-13
down
wechat
bug