当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Talk2Nav: Long-Range Vision-and-Language Navigation with Dual Attention and Spatial Memory
International Journal of Computer Vision ( IF 11.6 ) Pub Date : 2020-08-31 , DOI: 10.1007/s11263-020-01374-3
Arun Balajee Vasudevan , Dengxin Dai , Luc Van Gool

The role of robots in society keeps expanding, bringing with it the necessity of interacting and communicating with humans. In order to keep such interaction intuitive, we provide automatic wayfinding based on verbal navigational instructions. Our first contribution is the creation of a large-scale dataset with verbal navigation instructions. To this end, we have developed an interactive visual navigation environment based on Google Street View; we further design an annotation method to highlight mined anchor landmarks and local directions between them in order to help annotators formulate typical, human references to those. The annotation task was crowdsourced on the AMT platform, to construct a new Talk2Nav dataset with 10, 714 routes. Our second contribution is a new learning method. Inspired by spatial cognition research on the mental conceptualization of navigational instructions, we introduce a soft dual attention mechanism defined over the segmented language instructions to jointly extract two partial instructions—one for matching the next upcoming visual landmark and the other for matching the local directions to the next landmark. On the similar lines, we also introduce spatial memory scheme to encode the local directional transitions. Our work takes advantage of the advance in two lines of research: mental formalization of verbal navigational instructions and training neural network agents for automatic way finding. Extensive experiments show that our method significantly outperforms previous navigation methods. For demo video, dataset and code, please refer to our project page .

中文翻译:

Talk2Nav:具有双重注意力和空间记忆的远程视觉和语言导航

机器人在社会中的作用不断扩大,随之而来的是与人类互动和交流的必要性。为了保持这种交互的直观性,我们提供了基于口头导航指令的自动寻路。我们的第一个贡献是创建了一个带有口头导航指令的大规模数据集。为此,我们开发了基于谷歌街景的交互式视觉导航环境;我们进一步设计了一种注释方法来突出挖掘的锚地标和它们之间的局部方向,以帮助注释者制定典型的人类参考。注释任务是在 AMT 平台上众包的,以构建具有 10, 714 条路线的新 Talk2Nav 数据集。我们的第二个贡献是一种新的学习方法。受对导航指令心理概念化的空间认知研究的启发,我们引入了定义在分段语言指令上的软双重注意机制,以联合提取两个部分指令——一个用于匹配下一个即将到来的视觉地标,另一个用于匹配局部方向下一个地标。在类似的路线上,我们还引入了空间记忆方案来对局部方向转换进行编码。我们的工作利用了两方面研究的进步:口头导航指令的心理形式化和训练神经网络代理以进行自动寻路。大量实验表明,我们的方法明显优于以前的导航方法。有关演示视频、数据集和代码,请参阅我们的项目页面。我们引入了定义在分段语言指令上的软双重注意机制,以联合提取两个部分指令——一个用于匹配下一个即将到来的视觉地标,另一个用于将局部方向与下一个地标匹配。在类似的路线上,我们还引入了空间记忆方案来对局部方向转换进行编码。我们的工作利用了两方面研究的进步:口头导航指令的心理形式化和训练神经网络代理以进行自动寻路。大量实验表明,我们的方法明显优于以前的导航方法。有关演示视频、数据集和代码,请参阅我们的项目页面。我们引入了定义在分段语言指令上的软双重注意机制,以联合提取两个部分指令——一个用于匹配下一个即将到来的视觉地标,另一个用于将局部方向与下一个地标匹配。在类似的路线上,我们还引入了空间记忆方案来对局部方向转换进行编码。我们的工作利用了两方面研究的进步:口头导航指令的心理形式化和训练神经网络代理以进行自动寻路。大量实验表明,我们的方法明显优于以前的导航方法。有关演示视频、数据集和代码,请参阅我们的项目页面。
更新日期:2020-08-31
down
wechat
bug