当前位置: X-MOL 学术arXiv.cs.IR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Mend The Learning Approach, Not the Data: Insights for Ranking E-Commerce Products
arXiv - CS - Information Retrieval Pub Date : 2019-07-24 , DOI: arxiv-1907.10409
Muhammad Umer Anwaar, Dmytro Rybalko, Martin Kleinsteuber

Improved search quality enhances users' satisfaction, which directly impacts sales growth of an E-Commerce (E-Com) platform. Traditional Learning to Rank (LTR) algorithms require relevance judgments on products. In E-Com, getting such judgments poses an immense challenge. In the literature, it is proposed to employ user feedback (such as clicks, add-to-basket (AtB) clicks and orders) to generate relevance judgments. It is done in two steps: first, query-product pair data are aggregated from the logs and then order rate etc are calculated for each pair in the logs. In this paper, we advocate counterfactual risk minimization (CRM) approach which circumvents the need of relevance judgements, data aggregation and is better suited for learning from logged data, i.e. contextual bandit feedback. Due to unavailability of public E-Com LTR dataset, we provide \textit{Mercateo dataset} from our platform. It contains more than 10 million AtB click logs and 1 million order logs from a catalogue of about 3.5 million products associated with 3060 queries. To the best of our knowledge, this is the first work which examines effectiveness of CRM approach in learning ranking model from real-world logged data. Our empirical evaluation shows that our CRM approach learns effectively from logged data and beats a strong baseline ranker ($\lambda$-MART) by a huge margin. Our method outperforms full-information loss (e.g. cross-entropy) on various deep neural network models. These findings demonstrate that by adopting CRM approach, E-Com platforms can get better product search quality compared to full-information approach. The code and dataset can be accessed at: https://github.com/ecom-research/CRM-LTR.

中文翻译:

修正学习方法,而不是数据:电子商务产品排名的见解

搜索质量的提高提高了用户的满意度,这直接影响了电子商务(E-Com)平台的销售增长。传统的学习排名 (LTR) 算法需要对产品进行相关性判断。在 E-Com 中,获得这样的判断是一个巨大的挑战。在文献中,建议使用用户反馈(如点击、添加到购物篮(AtB)点击和订单)来生成相关性判断。它分两步完成:首先,从日志中聚合查询-产品对数据,然后为日志中的每一对计算订单率等。在本文中,我们提倡反事实风险最小化(CRM)方法,它绕过了相关性判断、数据聚合的需要,更适合从记录的数据中学习,即上下文老虎机反馈。由于公共 E-Com LTR 数据集不可用,我们从我们的平台提供 \textit{Mercateo dataset}。它包含来自与 3060 个查询相关的约 350 万种产品的目录中的超过 1000 万条 AtB 点击日志和 100 万条订单日志。据我们所知,这是第一项研究 CRM 方法在从真实世界记录数据中学习排名模型的有效性的工作。我们的实证评估表明,我们的 CRM 方法可以有效地从记录的数据中学习,并以巨大的优势击败强大的基线排名器 ($\lambda$-MART)。我们的方法在各种深度神经网络模型上优于全信息损失(例如交叉熵)。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。它包含来自与 3060 个查询相关的约 350 万种产品的目录中的超过 1000 万条 AtB 点击日志和 100 万条订单日志。据我们所知,这是第一项研究 CRM 方法在从真实世界记录数据中学习排名模型的有效性的工作。我们的实证评估表明,我们的 CRM 方法可以有效地从记录的数据中学习,并以巨大的优势击败强大的基线排名器 ($\lambda$-MART)。我们的方法在各种深度神经网络模型上优于全信息损失(例如交叉熵)。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。它包含来自与 3060 个查询相关的约 350 万种产品的目录中的超过 1000 万条 AtB 点击日志和 100 万条订单日志。据我们所知,这是第一项研究 CRM 方法在从真实世界记录数据中学习排名模型的有效性的工作。我们的实证评估表明,我们的 CRM 方法可以有效地从记录的数据中学习,并以巨大的优势击败强大的基线排名器 ($\lambda$-MART)。我们的方法在各种深度神经网络模型上优于全信息损失(例如交叉熵)。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。500 万个产品与 3060 个查询相关联。据我们所知,这是第一项研究 CRM 方法在从真实世界记录数据中学习排名模型的有效性的工作。我们的实证评估表明,我们的 CRM 方法可以有效地从记录的数据中学习,并以巨大的优势击败强大的基线排名器 ($\lambda$-MART)。我们的方法在各种深度神经网络模型上优于全信息损失(例如交叉熵)。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。500 万个产品与 3060 个查询相关联。据我们所知,这是第一项研究 CRM 方法在从真实世界记录数据中学习排名模型的有效性的工作。我们的实证评估表明,我们的 CRM 方法可以有效地从记录的数据中学习,并以巨大的优势击败强大的基线排名器 ($\lambda$-MART)。我们的方法在各种深度神经网络模型上优于全信息损失(例如交叉熵)。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。这是第一项研究 CRM 方法在从真实世界记录的数据中学习排名模型的有效性的工作。我们的实证评估表明,我们的 CRM 方法可以有效地从记录的数据中学习,并以巨大的优势击败强大的基线排名器 ($\lambda$-MART)。我们的方法在各种深度神经网络模型上优于全信息损失(例如交叉熵)。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。这是第一项研究 CRM 方法在从真实世界记录的数据中学习排名模型的有效性的工作。我们的实证评估表明,我们的 CRM 方法可以有效地从记录的数据中学习,并以巨大的优势击败强大的基线排名器 ($\lambda$-MART)。我们的方法在各种深度神经网络模型上优于全信息损失(例如交叉熵)。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。交叉熵)在各种深度神经网络模型上。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。交叉熵)在各种深度神经网络模型上。这些发现表明,与全信息方法相比,通过采用 CRM 方法,电子商务平台可以获得更好的产品搜索质量。代码和数据集可以通过以下网址访问:https://github.com/ecom-research/CRM-LTR。
更新日期:2020-07-10
down
wechat
bug