当前位置: X-MOL 学术arXiv.cs.RO › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Hierarchical Representations and Explicit Memory: Learning Effective Navigation Policies on 3D Scene Graphs using Graph Neural Networks
arXiv - CS - Robotics Pub Date : 2021-08-02 , DOI: arxiv-2108.01176
Zachary Ravichandran, Lisa Peng, Nathan Hughes, J. Daniel Griffith, Luca Carlone

Representations are crucial for a robot to learn effective navigation policies. Recent work has shown that mid-level perceptual abstractions, such as depth estimates or 2D semantic segmentation, lead to more effective policies when provided as observations in place of raw sensor data (e.g., RGB images). However, such policies must still learn latent three-dimensional scene properties from mid-level abstractions. In contrast, high-level, hierarchical representations such as 3D scene graphs explicitly provide a scene's geometry, topology, and semantics, making them compelling representations for navigation. In this work, we present a reinforcement learning framework that leverages high-level hierarchical representations to learn navigation policies. Towards this goal, we propose a graph neural network architecture and show how to embed a 3D scene graph into an agent-centric feature space, which enables the robot to learn policies for low-level action in an end-to-end manner. For each node in the scene graph, our method uses features that capture occupancy and semantic content, while explicitly retaining memory of the robot trajectory. We demonstrate the effectiveness of our method against commonly used visuomotor policies in a challenging object search task. These experiments and supporting ablation studies show that our method leads to more effective object search behaviors, exhibits improved long-term memory, and successfully leverages hierarchical information to guide its navigation objectives.

中文翻译:

分层表示和显式记忆:使用图神经网络学习 3D 场景图上的有效导航策略

表示对于机器人学习有效的导航策略至关重要。最近的工作表明,中级感知抽象,例如深度估计或 2D 语义分割,当作为观察代替原始传感器数据(例如,RGB 图像)提供时,会导致更有效的策略。然而,这样的策略仍然必须从中级抽象中学习潜在的三维场景属性。相比之下,3D 场景图等高级层次表示明确提供了场景的几何、拓扑和语义,使它们成为导航的引人注目的表示。在这项工作中,我们提出了一个强化学习框架,它利用高级层次表示来学习导航策略。为了这个目标,我们提出了一种图神经网络架构,并展示了如何将 3D 场景图嵌入到以代理为中心的特征空间中,这使机器人能够以端到端的方式学习低级动作的策略。对于场景图中的每个节点,我们的方法使用捕获占用和语义内容的特征,同时明确保留机器人轨迹的记忆。我们证明了我们的方法在具有挑战性的对象搜索任务中对抗常用视觉运动策略的有效性。这些实验和支持消融研究表明,我们的方法导致更有效的对象搜索行为,表现出改善的长期记忆,并成功地利用分层信息来指导其导航目标。这使机器人能够以端到端的方式学习低级动作的策略。对于场景图中的每个节点,我们的方法使用捕获占用和语义内容的特征,同时明确保留机器人轨迹的记忆。我们证明了我们的方法在具有挑战性的对象搜索任务中对抗常用视觉运动策略的有效性。这些实验和支持消融研究表明,我们的方法导致更有效的对象搜索行为,表现出改善的长期记忆,并成功地利用分层信息来指导其导航目标。这使机器人能够以端到端的方式学习低级动作的策略。对于场景图中的每个节点,我们的方法使用捕获占用和语义内容的特征,同时明确保留机器人轨迹的记忆。我们证明了我们的方法在具有挑战性的对象搜索任务中对抗常用视觉运动策略的有效性。这些实验和支持消融研究表明,我们的方法导致更有效的对象搜索行为,表现出改善的长期记忆,并成功地利用分层信息来指导其导航目标。我们证明了我们的方法在具有挑战性的对象搜索任务中对抗常用视觉运动策略的有效性。这些实验和支持消融研究表明,我们的方法导致更有效的对象搜索行为,表现出改善的长期记忆,并成功地利用分层信息来指导其导航目标。我们证明了我们的方法在具有挑战性的对象搜索任务中对抗常用视觉运动策略的有效性。这些实验和支持消融研究表明,我们的方法导致更有效的对象搜索行为,表现出改善的长期记忆,并成功地利用分层信息来指导其导航目标。
更新日期:2021-08-04
down
wechat
bug