DD-PPO: Learning Near-Perfect PointGoal Navigators from 2.5 Billion Frames,arXiv - CS - Artificial Intelligence

当前位置： X-MOL 学术 › arXiv.cs.AI › 论文详情

Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)

DD-PPO: Learning Near-Perfect PointGoal Navigators from 2.5 Billion Frames
arXiv - CS - Artificial Intelligence Pub Date : 2019-11-01 , DOI: arxiv-1911.00357
Erik Wijmans, Abhishek Kadian, Ari Morcos, Stefan Lee, Irfan Essa, Devi Parikh, Manolis Savva, Dhruv Batra

We present Decentralized Distributed Proximal Policy Optimization (DD-PPO), a method for distributed reinforcement learning in resource-intensive simulated environments. DD-PPO is distributed (uses multiple machines), decentralized (lacks a centralized server), and synchronous (no computation is ever stale), making it conceptually simple and easy to implement. In our experiments on training virtual robots to navigate in Habitat-Sim, DD-PPO exhibits near-linear scaling -- achieving a speedup of 107x on 128 GPUs over a serial implementation. We leverage this scaling to train an agent for 2.5 Billion steps of experience (the equivalent of 80 years of human experience) -- over 6 months of GPU-time training in under 3 days of wall-clock time with 64 GPUs. This massive-scale training not only sets the state of art on Habitat Autonomous Navigation Challenge 2019, but essentially solves the task --near-perfect autonomous navigation in an unseen environment without access to a map, directly from an RGB-D camera and a GPS+Compass sensor. Fortuitously, error vs computation exhibits a power-law-like distribution; thus, 90% of peak performance is obtained relatively early (at 100 million steps) and relatively cheaply (under 1 day with 8 GPUs). Finally, we show that the scene understanding and navigation policies learned can be transferred to other navigation tasks -- the analog of ImageNet pre-training + task-specific fine-tuning for embodied AI. Our model outperforms ImageNet pre-trained CNNs on these transfer tasks and can serve as a universal resource (all models and code are publicly available).

中文翻译：

DD-PPO：从 25 亿帧中学习近乎完美的 PointGoal 导航器

我们提出了去中心化分布式近端策略优化 (DD-PPO)，这是一种在资源密集型模拟环境中进行分布式强化学习的方法。DD-PPO 是分布式的（使用多台机器）、去中心化的（没有中心化的服务器）和同步的（没有计算过时），这使得它在概念上简单且易于实现。在我们训练虚拟机器人在 Habitat-Sim 中导航的实验中，DD-PPO 表现出近乎线性的扩展——通过串行实现在 128 个 GPU 上实现了 107 倍的加速。我们利用这种扩展来训练代理获得 25 亿步的经验（相当于 80 年的人类经验）——使用 64 个 GPU 在不到 3 天的挂钟时间内进行超过 6 个月的 GPU 时间训练。这种大规模的培训不仅为 2019 年栖息地自主导航挑战赛奠定了最先进的技术，而且从根本上解决了任务——在看不见的环境中近乎完美的自主导航，无需访问地图，直接从 RGB-D 摄像头和GPS+罗盘传感器。幸运的是，误差与计算表现出类似幂律的分布；因此，90% 的峰值性能是相对较早地（以 1 亿步）和相对便宜的方式（在 8 个 GPU 下不到 1 天）获得的。最后，我们表明学习到的场景理解和导航策略可以转移到其他导航任务——ImageNet 预训练的模拟 + 针对具体人工智能的任务特定微调。我们的模型在这些传输任务上优于 ImageNet 预训练的 CNN，并且可以作为通用资源（所有模型和代码都是公开可用的）。但本质上解决了任务——在看不见的环境中近乎完美的自主导航，无需访问地图，直接从 RGB-D 相机和 GPS+指南针传感器。幸运的是，误差与计算表现出类似幂律的分布；因此，90% 的峰值性能是相对较早地（以 1 亿步）和相对便宜的方式（在 8 个 GPU 下不到 1 天）获得的。最后，我们表明学习到的场景理解和导航策略可以转移到其他导航任务——ImageNet 预训练的模拟 + 针对具体人工智能的任务特定微调。我们的模型在这些传输任务上优于 ImageNet 预训练的 CNN，并且可以作为通用资源（所有模型和代码都是公开可用的）。但本质上解决了任务——在看不见的环境中近乎完美的自主导航，无需访问地图，直接从 RGB-D 相机和 GPS+指南针传感器。幸运的是，误差与计算表现出类似幂律的分布；因此，90% 的峰值性能是相对较早地（以 1 亿步）和相对便宜的方式（在 8 个 GPU 下不到 1 天）获得的。最后，我们表明学习到的场景理解和导航策略可以转移到其他导航任务——ImageNet 预训练的模拟 + 针对具体人工智能的任务特定微调。我们的模型在这些传输任务上优于 ImageNet 预训练的 CNN，并且可以作为通用资源（所有模型和代码都是公开可用的）。误差与计算表现出类似幂律的分布；因此，90% 的峰值性能是相对较早地（以 1 亿步）和相对便宜的方式（在 8 个 GPU 下不到 1 天）获得的。最后，我们表明学习到的场景理解和导航策略可以转移到其他导航任务——ImageNet 预训练的模拟 + 针对具体人工智能的任务特定微调。我们的模型在这些传输任务上优于 ImageNet 预训练的 CNN，并且可以作为通用资源（所有模型和代码都是公开可用的）。误差与计算表现出类似幂律的分布；因此，90% 的峰值性能是相对较早地（以 1 亿步）和相对便宜的方式（在 8 个 GPU 下不到 1 天）获得的。最后，我们表明学习到的场景理解和导航策略可以转移到其他导航任务——ImageNet 预训练的模拟 + 针对具体人工智能的任务特定微调。我们的模型在这些传输任务上优于 ImageNet 预训练的 CNN，并且可以作为通用资源（所有模型和代码都是公开可用的）。我们表明，学习到的场景理解和导航策略可以转移到其他导航任务——ImageNet 预训练的模拟 + 针对具体人工智能的任务特定微调。我们的模型在这些传输任务上优于 ImageNet 预训练的 CNN，并且可以作为通用资源（所有模型和代码都是公开可用的）。我们表明，学习到的场景理解和导航策略可以转移到其他导航任务——ImageNet 预训练的模拟 + 针对具体人工智能的任务特定微调。我们的模型在这些传输任务上优于 ImageNet 预训练的 CNN，并且可以作为通用资源（所有模型和代码都是公开可用的）。

更新日期：2020-01-22

点击分享查看原文

点击收藏

阅读更多本刊最新论文