当前位置:
X-MOL 学术
›
arXiv.cs.IR
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Neural Interactive Collaborative Filtering
arXiv - CS - Information Retrieval Pub Date : 2020-07-04 , DOI: arxiv-2007.02095 Lixin Zou, Long Xia, Yulong Gu, Xiangyu Zhao, Weidong Liu, Jimmy Xiangji Huang, Dawei Yin
arXiv - CS - Information Retrieval Pub Date : 2020-07-04 , DOI: arxiv-2007.02095 Lixin Zou, Long Xia, Yulong Gu, Xiangyu Zhao, Weidong Liu, Jimmy Xiangji Huang, Dawei Yin
In this paper, we study collaborative filtering in an interactive setting, in
which the recommender agents iterate between making recommendations and
updating the user profile based on the interactive feedback. The most
challenging problem in this scenario is how to suggest items when the user
profile has not been well established, i.e., recommend for cold-start users or
warm-start users with taste drifting. Existing approaches either rely on overly
pessimistic linear exploration strategy or adopt meta-learning based algorithms
in a full exploitation way. In this work, to quickly catch up with the user's
interests, we propose to represent the exploration policy with a neural network
and directly learn it from the feedback data. Specifically, the exploration
policy is encoded in the weights of multi-channel stacked self-attention neural
networks and trained with efficient Q-learning by maximizing users' overall
satisfaction in the recommender systems. The key insight is that the satisfied
recommendations triggered by the exploration recommendation can be viewed as
the exploration bonus (delayed reward) for its contribution on improving the
quality of the user profile. Therefore, the proposed exploration policy, to
balance between learning the user profile and making accurate recommendations,
can be directly optimized by maximizing users' long-term satisfaction with
reinforcement learning. Extensive experiments and analysis conducted on three
benchmark collaborative filtering datasets have demonstrated the advantage of
our method over state-of-the-art methods.
中文翻译:
神经交互协同过滤
在本文中,我们研究了交互设置中的协同过滤,其中推荐代理在提出推荐和基于交互反馈更新用户配置文件之间进行迭代。这个场景中最具挑战性的问题是如何在用户配置文件尚未建立的情况下推荐项目,即推荐给口味漂移的冷启动用户或热启动用户。现有方法要么依赖过于悲观的线性探索策略,要么以完全开发的方式采用基于元学习的算法。在这项工作中,为了快速赶上用户的兴趣,我们建议用神经网络表示探索策略,并直接从反馈数据中学习。具体来说,探索策略被编码在多通道堆叠自注意力神经网络的权重中,并通过最大化用户在推荐系统中的整体满意度进行有效的 Q-learning 训练。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。提议的探索策略,在学习用户资料和做出准确推荐之间取得平衡,可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。提议的探索策略,在学习用户资料和做出准确推荐之间取得平衡,可以通过最大化用户对强化学习的长期满意度来直接优化。对三个基准协同过滤数据集进行的大量实验和分析证明了我们的方法优于最先进方法的优势。
更新日期:2020-07-07
中文翻译:
神经交互协同过滤
在本文中,我们研究了交互设置中的协同过滤,其中推荐代理在提出推荐和基于交互反馈更新用户配置文件之间进行迭代。这个场景中最具挑战性的问题是如何在用户配置文件尚未建立的情况下推荐项目,即推荐给口味漂移的冷启动用户或热启动用户。现有方法要么依赖过于悲观的线性探索策略,要么以完全开发的方式采用基于元学习的算法。在这项工作中,为了快速赶上用户的兴趣,我们建议用神经网络表示探索策略,并直接从反馈数据中学习。具体来说,探索策略被编码在多通道堆叠自注意力神经网络的权重中,并通过最大化用户在推荐系统中的整体满意度进行有效的 Q-learning 训练。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。关键的见解是,探索推荐触发的满意推荐可以看作是探索奖励(延迟奖励),因为它对提高用户个人资料的质量做出了贡献。因此,为了在学习用户配置文件和做出准确推荐之间取得平衡,所提出的探索策略可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。提议的探索策略,在学习用户资料和做出准确推荐之间取得平衡,可以通过最大化用户对强化学习的长期满意度来直接优化。在三个基准协同过滤数据集上进行的大量实验和分析证明了我们的方法优于最先进方法的优势。提议的探索策略,在学习用户资料和做出准确推荐之间取得平衡,可以通过最大化用户对强化学习的长期满意度来直接优化。对三个基准协同过滤数据集进行的大量实验和分析证明了我们的方法优于最先进方法的优势。