当前位置: X-MOL 学术arXiv.cs.IR › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Neural Interactive Collaborative Filtering
arXiv - CS - Information Retrieval Pub Date : 2020-07-04 , DOI: arxiv-2007.02095
Lixin Zou, Long Xia, Yulong Gu, Xiangyu Zhao, Weidong Liu, Jimmy Xiangji Huang, Dawei Yin

In this paper, we study collaborative filtering in an interactive setting, in which the recommender agents iterate between making recommendations and updating the user profile based on the interactive feedback. The most challenging problem in this scenario is how to suggest items when the user profile has not been well established, i.e., recommend for cold-start users or warm-start users with taste drifting. Existing approaches either rely on overly pessimistic linear exploration strategy or adopt meta-learning based algorithms in a full exploitation way. In this work, to quickly catch up with the user's interests, we propose to represent the exploration policy with a neural network and directly learn it from the feedback data. Specifically, the exploration policy is encoded in the weights of multi-channel stacked self-attention neural networks and trained with efficient Q-learning by maximizing users' overall satisfaction in the recommender systems. The key insight is that the satisfied recommendations triggered by the exploration recommendation can be viewed as the exploration bonus (delayed reward) for its contribution on improving the quality of the user profile. Therefore, the proposed exploration policy, to balance between learning the user profile and making accurate recommendations, can be directly optimized by maximizing users' long-term satisfaction with reinforcement learning. Extensive experiments and analysis conducted on three benchmark collaborative filtering datasets have demonstrated the advantage of our method over state-of-the-art methods.

中文翻译:

神经交互协同过滤

在本文中,我们研究了交互设置中的协同过滤,其中推荐代理在提出推荐和基于交互反馈更新用户配置文件之间进行迭代。这个场景中最具挑战性的问题是如何在用户配置文件尚未建立的情况下推荐项目,即推荐给口味漂移的冷启动用户或热启动用户。现有方法要么依赖过于悲观的线性探索策略,要么以完全开发的方式采用基于元学习的算法。在这项工作中,为了快速赶上用户的兴趣,我们建议用神经网络表示探索策略,并直接从反馈数据中学习。具体来说,探索策略被编码在多通道堆叠自注意力神经网络的权重中,并通过最大化用户在推荐系统中的整体满意度进行有效的 Q-learning 训练。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。提议的探索策略,在学习用户资料和做出准确推荐之间取得平衡,可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。提议的探索策略,在学习用户资料和做出准确推荐之间取得平衡,可以通过最大化用户对强化学习的长期满意度来直接优化。对三个基准协同过滤数据集进行的大量实验和分析证明了我们的方法优于最先进方法的优势。
更新日期:2020-07-07
down
wechat
bug