时刻与匹配：模仿学习中的权衡与处理,arXiv - CS - Robotics - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.RO › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

时刻与匹配：模仿学习中的权衡与处理
arXiv - CS - Robotics Pub Date : 2021-03-04 , DOI: arxiv-2103.03236
Gokul Swamy, Sanjiban Choudhury, Zhiwei Steven Wu, J. Andrew Bagnell

我们通过矩匹配的角度提供了一大类先前的模仿学习算法的统一视图。归根结底，我们的分类方案基于学习者是否尝试匹配专家行为的（1）奖励或（2）行动价值时刻，每种选择都导致不同的算法方法。通过考虑学习者行为与专家行为之间的对抗性选择差异，我们能够得出政策绩效的界限，该界限适用于所有这些类别中的所有算法，这是我们所了解的第一个。我们还介绍了可恢复性的概念，该概念在以前的许多模仿学习分析中都没有体现，这使我们能够清楚地描述每个算法系列能够缓解复合错误的程度。我们推导了两个新颖的算法模板AdVIL和AdRIL，

"点击查看英文标题和摘要"

更新日期：2021-03-05

点击分享查看原文

点击收藏

阅读更多本刊最新论文

全部期刊列表>>

阿拉丁

天然纤维材料

口腔微生物

英语语言编辑翻译加编辑

开学季购书享好礼新

有奖问卷征集新

材料学领域约200份+SCI期刊

定位全球科研英才

中国图象图形学学会合作刊

东北石油大学合作期刊

动物源性食品遗传学与育种

专业英语编辑服务

左智伟--多次发布

深圳湾

多次发布---上海中医药

南科大

新泽西

罗格斯

上海交大

中科院

南科大

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug