带有明确策略估计的逆强化学习,arXiv - CS - Machine Learning - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.LG › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

带有明确策略估计的逆强化学习
arXiv - CS - Machine Learning Pub Date : 2021-03-04 , DOI: arxiv-2103.02863
Navyata Sanghvi, Shinnosuke Usami, Mohit Sharma, Joachim Groeger, Kris Kitani

在机器学习和经济学领域已经独立开发了各种解决逆强化学习（IRL）问题的方法。尤其是，最大因果熵IRL方法是基于熵最大化的观点，而经济学领域的相关进展却假设存在未观察到的动作冲击来解释专家行为（嵌套定点算法，条件选择概率方法，嵌套伪似然算法）。在这项工作中，我们在两个领域的这些相关方法之间建立了以前未知的联系。我们通过证明它们都属于一类优化问题来实现这一目标，这些问题以目标，相关策略和目标梯度的常见形式为特征。我们演示了由于最佳软值函数的近似而在方法之间出现的关键计算和算法差异，并描述了这如何导致更高效的算法。利用从我们对此类优化问题的研究中得出的见解，我们确定了各种问题情况，并研究了每种方法对这些问题的适用性。

"点击查看英文标题和摘要"

更新日期：2021-03-05

点击分享查看原文

点击收藏

阅读更多本刊最新论文

全部期刊列表>>

阿拉丁

动态系统的数学与计算机建模

热点论文一站获取

购书送好礼

天然纤维材料

口腔微生物

英语语言编辑翻译加编辑

材料学领域约200份+SCI期刊

定位全球科研英才

中国图象图形学学会合作刊

东北石油大学合作期刊

动物源性食品遗传学与育种

专业英语编辑服务

左智伟--多次发布

多次发布---上海中医药

上海交大

中科院

南科大

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug