当前位置: X-MOL 学术arXiv.cs.LG › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
带有明确策略估计的逆强化学习
arXiv - CS - Machine Learning Pub Date : 2021-03-04 , DOI: arxiv-2103.02863
Navyata Sanghvi, Shinnosuke Usami, Mohit Sharma, Joachim Groeger, Kris Kitani

在机器学习和经济学领域已经独立开发了各种解决逆强化学习(IRL)问题的方法。尤其是,最大因果熵IRL方法是基于熵最大化的观点,而经济学领域的相关进展却假设存在未观察到的动作冲击来解释专家行为(嵌套定点算法,条件选择概率方法,嵌套伪似然算法)。在这项工作中,我们在两个领域的这些相关方法之间建立了以前未知的联系。我们通过证明它们都属于一类优化问题来实现这一目标,这些问题以目标,相关策略和目标梯度的常见形式为特征。我们演示了由于最佳软值函数的近似而在方法之间出现的关键计算和算法差异,并描述了这如何导致更高效的算法。利用从我们对此类优化问题的研究中得出的见解,我们确定了各种问题情况,并研究了每种方法对这些问题的适用性。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug