当前位置: X-MOL 学术ACM Trans. Interact. Intell. Syst. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Learning Context-dependent Personal Preferences for Adaptive Recommendation
ACM Transactions on Interactive Intelligent Systems ( IF 3.6 ) Pub Date : 2020-07-07 , DOI: 10.1145/3359755
KEITA HIGUCHI 1 , Hiroki Tsuchida 1 , Eshed Ohn-Bar 2 , Yoichi Sato 1 , Kris Kitani 2
Affiliation  

We propose two online-learning algorithms for modeling the personal preferences of users of interactive systems. The proposed algorithms leverage user feedback to estimate user behavior and provide personalized adaptive recommendation for supporting context-dependent decision-making. We formulate preference modeling as online prediction algorithms over a set of learned policies, i.e., policies generated via supervised learning with interaction and context data collected from previous users. The algorithms then adapt to a target user by learning the policy that best predicts that user’s behavior and preferences. We also generalize the proposed algorithms for a more challenging learning case in which they are restricted to a limited number of trained policies at each timestep, i.e., for mobile settings with limited resources. While the proposed algorithms are kept general for use in a variety of domains, we developed an image-filter-selection application. We used this application to demonstrate how the proposed algorithms can quickly learn to match the current user’s selections. Based on these evaluations, we show that (1) the proposed algorithms exhibit better prediction accuracy compared to traditional supervised learning and bandit algorithms, (2) our algorithms are robust under challenging limited prediction settings in which a smaller number of expert policies is assumed. Finally, we conducted a user study to demonstrate how presenting users with the prediction results of our algorithms significantly improves the efficiency of the overall interaction experience.

中文翻译:

学习自适应推荐的上下文相关个人偏好

我们提出了两种在线学习算法,用于对交互式系统用户的个人偏好进行建模。所提出的算法利用用户反馈来估计用户行为并提供个性化的自适应推荐以支持与上下文相关的决策。我们将偏好建模制定为一组学习策略的在线预测算法,即通过监督学习生成的策略与从以前用户收集的交互和上下文数据。然后,算法通过学习最能预测用户行为和偏好的策略来适应目标用户。我们还将所提出的算法推广到更具挑战性的学习案例,其中它们在每个时间步被限制为有限数量的训练策略,即资源有限的移动设置。虽然提出的算法保持通用性,可用于各种领域,但我们开发了一个图像过滤器选择应用程序。我们使用这个应用程序来演示所提出的算法如何快速学习匹配当前用户的选择。基于这些评估,我们表明(1)与传统的监督学习和老虎机算法相比,所提出的算法表现出更好的预测精度,(2)我们的算法在具有挑战性的有限预测设置下具有鲁棒性,其中假设的专家策略数量较少。最后,我们进行了一项用户研究,以证明向用户展示我们算法的预测结果如何显着提高整体交互体验的效率。我们开发了一个图像过滤器选择应用程序。我们使用这个应用程序来演示所提出的算法如何快速学习匹配当前用户的选择。基于这些评估,我们表明(1)与传统的监督学习和老虎机算法相比,所提出的算法表现出更好的预测精度,(2)我们的算法在具有挑战性的有限预测设置下具有鲁棒性,其中假设的专家策略数量较少。最后,我们进行了一项用户研究,以证明向用户展示我们算法的预测结果如何显着提高整体交互体验的效率。我们开发了一个图像过滤器选择应用程序。我们使用这个应用程序来演示所提出的算法如何快速学习匹配当前用户的选择。基于这些评估,我们表明(1)与传统的监督学习和老虎机算法相比,所提出的算法表现出更好的预测精度,(2)我们的算法在具有挑战性的有限预测设置下具有鲁棒性,其中假设的专家策略数量较少。最后,我们进行了一项用户研究,以证明向用户展示我们算法的预测结果如何显着提高整体交互体验的效率。我们表明(1)与传统的监督学习和老虎机算法相比,所提出的算法表现出更好的预测准确性,(2)我们的算法在具有挑战性的有限预测设置下具有鲁棒性,其中假设的专家策略数量较少。最后,我们进行了一项用户研究,以证明向用户展示我们算法的预测结果如何显着提高整体交互体验的效率。我们表明(1)与传统的监督学习和老虎机算法相比,所提出的算法表现出更好的预测准确性,(2)我们的算法在具有挑战性的有限预测设置下具有鲁棒性,其中假设的专家策略数量较少。最后,我们进行了一项用户研究,以证明向用户展示我们算法的预测结果如何显着提高整体交互体验的效率。
更新日期:2020-07-07
down
wechat
bug