当前位置: X-MOL 学术arXiv.cs.CL › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Caption Generation of Robot Behaviors based on Unsupervised Learning of Action Segments
arXiv - CS - Computation and Language Pub Date : 2020-03-23 , DOI: arxiv-2003.10066
Koichiro Yoshino, Kohei Wakimoto, Yuta Nishimura, Satoshi Nakamura

Bridging robot action sequences and their natural language captions is an important task to increase explainability of human assisting robots in their recently evolving field. In this paper, we propose a system for generating natural language captions that describe behaviors of human assisting robots. The system describes robot actions by using robot observations; histories from actuator systems and cameras, toward end-to-end bridging between robot actions and natural language captions. Two reasons make it challenging to apply existing sequence-to-sequence models to this mapping: 1) it is hard to prepare a large-scale dataset for any kind of robots and their environment, and 2) there is a gap between the number of samples obtained from robot action observations and generated word sequences of captions. We introduced unsupervised segmentation based on K-means clustering to unify typical robot observation patterns into a class. This method makes it possible for the network to learn the relationship from a small amount of data. Moreover, we utilized a chunking method based on byte-pair encoding (BPE) to fill in the gap between the number of samples of robot action observations and words in a caption. We also applied an attention mechanism to the segmentation task. Experimental results show that the proposed model based on unsupervised learning can generate better descriptions than other methods. We also show that the attention mechanism did not work well in our low-resource setting.

中文翻译:

基于动作段无监督学习的机器人行为字幕生成

桥接机器人动作序列及其自然语言字幕是提高人类辅助机器人在其最近发展的领域中的可解释性的一项重要任务。在本文中,我们提出了一种用于生成描述人类辅助机器人行为的自然语言字幕的系统。系统通过机器人观察来描述机器人动作;从执行器系统和相机的历史,到机器人动作和自然语言字幕之间的端到端桥接。两个原因使得将现有的序列到序列模型应用于此映射具有挑战性:1) 很难为任何类型的机器人及其环境准备大规模数据集,以及 2) 数量之间存在差距从机器人动作观察和生成的字幕单词序列中获得的样本。我们引入了基于 K-means 聚类的无监督分割,将典型的机器人观察模式统一为一个类。这种方法使网络可以从少量数据中学习关系。此外,我们利用基于字节对编码 (BPE) 的分块方法来填补机器人动作观察样本数量与标题中单词之间的差距。我们还将注意力机制应用于分割任务。实验结果表明,所提出的基于无监督学习的模型可以产生比其他方法更好的描述。我们还表明,注意力机制在我们的低资源环境中效果不佳。这种方法使网络可以从少量数据中学习关系。此外,我们利用基于字节对编码 (BPE) 的分块方法来填补机器人动作观察样本数量与标题中单词之间的差距。我们还将注意力机制应用于分割任务。实验结果表明,所提出的基于无监督学习的模型可以产生比其他方法更好的描述。我们还表明,注意力机制在我们的低资源环境中效果不佳。这种方法使网络可以从少量数据中学习关系。此外,我们利用基于字节对编码 (BPE) 的分块方法来填补机器人动作观察样本数量与标题中单词之间的差距。我们还将注意力机制应用于分割任务。实验结果表明,所提出的基于无监督学习的模型可以产生比其他方法更好的描述。我们还表明,注意力机制在我们的低资源环境中效果不佳。实验结果表明,所提出的基于无监督学习的模型可以产生比其他方法更好的描述。我们还表明,注意力机制在我们的低资源环境中效果不佳。实验结果表明,所提出的基于无监督学习的模型可以产生比其他方法更好的描述。我们还表明,注意力机制在我们的低资源环境中效果不佳。
更新日期:2020-03-24
down
wechat
bug