当前位置: X-MOL 学术arXiv.cs.RO › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
时刻与匹配:模仿学习中的权衡与处理
arXiv - CS - Robotics Pub Date : 2021-03-04 , DOI: arxiv-2103.03236
Gokul Swamy, Sanjiban Choudhury, Zhiwei Steven Wu, J. Andrew Bagnell

我们通过矩匹配的角度提供了一大类先前的模仿学习算法的统一视图。归根结底,我们的分类方案基于学习者是否尝试匹配专家行为的(1)奖励或(2)行动价值时刻,每种选择都导致不同的算法方法。通过考虑学习者行为与专家行为之间的对抗性选择差异,我们能够得出政策绩效的界限,该界限适用于所有这些类别中的所有算法,这是我们所了解的第一个。我们还介绍了可恢复性的概念,该概念在以前的许多模仿学习分析中都没有体现,这使我们能够清楚地描述每个算法系列能够缓解复合错误的程度。我们推导了两个新颖的算法模板AdVIL和AdRIL,



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug