当前位置: X-MOL 学术arXiv.cs.RO › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
奖励功能特征的基于偏好的学习
arXiv - CS - Robotics Pub Date : 2021-03-03 , DOI: arxiv-2103.02727
Sydney M. Katz, Amir Maleki, Erdem Bıyık, Mykel J. Kochenderfer

奖励功能的基于偏好的学习(其中使用比较数据来学习奖励功能)已经针对复杂的机器人任务(例如自动驾驶)进行了深入研究。现有算法集中于学习在一组轨迹特征中是线性的奖励函数。特征通常是手工编码的,并且基于首选项的学习用于确定特定用户对每个特征的相对权重。设计一组具有代表性的功能来对奖励进行编码非常具有挑战性,并且可能导致模型不正确,从而无法对用户的偏好进行建模或无法正确执行任务。在本文中,我们提出了一种方法来学习功能之间的相对权重以及有助于编码用户奖励功能的其他功能。附加功能被建模为一个神经网络,该神经网络对来自成对比较查询的数据进行训练。我们将我们的方法应用于以前的工作中的驾驶场景,并将我们的方法的预测能力与仅手工编码的功能进行比较。我们执行附加分析以解释学习到的特征并检查最佳轨迹。我们的结果表明,将额外的学习功能添加到奖励模型中可以增强其预测能力和表达能力,从而为每个用户产生独特的结果。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug