迈向稳健的远程政策转移,arXiv - CS - Artificial Intelligence - X-MOL

当前位置： X-MOL 学术 › arXiv.cs.AI › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

迈向稳健的远程政策转移
arXiv - CS - Artificial Intelligence Pub Date : 2021-03-04 , DOI: arxiv-2103.02957
Wei-Cheng Tseng, Jin-Siang Lin, Yao-Min Feng, Min Sun

通过利用以前的经验获得的技能，人类可以在几次试验中完成一项新任务。为了模仿这种能力，已经提出了结合从先前任务中学到的原始策略的分层模型。但是，与人类的可转移性范围相比，这些方法不足。我们提出了一种方法，该方法利用层次结构来训练组合功能并交替使用一组不同的原始策略，以有效地产生具有挑战性的新任务的一系列复杂行为。我们还设计了两个正则项，以提高预训练阶段中基元的多样性和利用率。我们证明，通过在连续动作空间的任务中组合和改编这些可重用原语，我们的方法优于其他最近的策略转移方法。实验结果进一步表明，我们的方法提供了更广的传输范围。消融研究还显示，正规化条款对于长期政策转移至关重要。最后，我们证明了当基元的质量发生变化时，我们的方法始终优于其他方法。

"点击查看英文标题和摘要"

更新日期：2021-03-05

点击分享查看原文

点击收藏

阅读更多本刊最新论文

全部期刊列表>>

阿拉丁

动态系统的数学与计算机建模

热点论文一站获取

购书送好礼

天然纤维材料

口腔微生物

英语语言编辑翻译加编辑

材料学领域约200份+SCI期刊

定位全球科研英才

中国图象图形学学会合作刊

东北石油大学合作期刊

动物源性食品遗传学与育种

专业英语编辑服务

左智伟--多次发布

多次发布---上海中医药

上海交大

中科院

南科大

ACS材料视界

客服邮箱：service@x-mol.com
官方微信：X-molTeam2
邮编：100098
地址：北京市海淀区知春路56号中航科技大厦

bug