当前位置: X-MOL 学术arXiv.cs.MM › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Dynamic Context-guided Capsule Network for Multimodal Machine Translation
arXiv - CS - Multimedia Pub Date : 2020-09-04 , DOI: arxiv-2009.02016
Huan Lin and Fandong Meng and Jinsong Su and Yongjing Yin and Zhengyuan Yang and Yubin Ge and Jie Zhou and Jiebo Luo

Multimodal machine translation (MMT), which mainly focuses on enhancing text-only translation with visual features, has attracted considerable attention from both computer vision and natural language processing communities. Most current MMT models resort to attention mechanism, global context modeling or multimodal joint representation learning to utilize visual features. However, the attention mechanism lacks sufficient semantic interactions between modalities while the other two provide fixed visual context, which is unsuitable for modeling the observed variability when generating translation. To address the above issues, in this paper, we propose a novel Dynamic Context-guided Capsule Network (DCCN) for MMT. Specifically, at each timestep of decoding, we first employ the conventional source-target attention to produce a timestep-specific source-side context vector. Next, DCCN takes this vector as input and uses it to guide the iterative extraction of related visual features via a context-guided dynamic routing mechanism. Particularly, we represent the input image with global and regional visual features, we introduce two parallel DCCNs to model multimodal context vectors with visual features at different granularities. Finally, we obtain two multimodal context vectors, which are fused and incorporated into the decoder for the prediction of the target word. Experimental results on the Multi30K dataset of English-to-German and English-to-French translation demonstrate the superiority of DCCN. Our code is available on https://github.com/DeepLearnXMU/MM-DCCN.

中文翻译:

用于多模态机器翻译的动态上下文引导胶囊网络

多模态机器翻译(MMT)主要侧重于增强具有视觉特征的纯文本翻译,引起了计算机视觉和自然语言处理社区的广泛关注。大多数当前的 MMT 模型采用注意力机制、全局上下文建模或多模态联合表示学习来利用视觉特征。然而,注意力机制缺乏模态之间足够的语义交互,而其他两个提供固定的视觉上下文,这不适合在生成翻译时对观察到的可变性进行建模。为了解决上述问题,在本文中,我们为 MMT 提出了一种新颖的动态上下文引导胶囊网络(DCCN)。具体来说,在解码的每个时间步,我们首先使用传统的源目标注意力来生成特定于时间步长的源端上下文向量。接下来,DCCN 将这个向量作为输入,并通过上下文引导的动态路由机制使用它来指导相关视觉特征的迭代提取。特别是,我们用全局和区域视觉特征来表示输入图像,我们引入了两个并行的 DCCN 来对具有不同粒度的视觉特征的多模态上下文向量进行建模。最后,我们获得两个多模态上下文向量,将它们融合并合并到解码器中以预测目标词。在英德英法翻译 Multi30K 数据集上的实验结果证明了 DCCN 的优越性。我们的代码可在 https://github.com/DeepLearnXMU/MM-DCCN 上找到。DCCN 将这个向量作为输入,并通过上下文引导的动态路由机制使用它来指导相关视觉特征的迭代提取。特别是,我们用全局和区域视觉特征来表示输入图像,我们引入了两个并行的 DCCN 来对具有不同粒度的视觉特征的多模态上下文向量进行建模。最后,我们获得两个多模态上下文向量,将它们融合并合并到解码器中以预测目标词。在英德英法翻译 Multi30K 数据集上的实验结果证明了 DCCN 的优越性。我们的代码可在 https://github.com/DeepLearnXMU/MM-DCCN 上找到。DCCN 将这个向量作为输入,并通过上下文引导的动态路由机制使用它来指导相关视觉特征的迭代提取。特别是,我们用全局和区域视觉特征来表示输入图像,我们引入了两个并行的 DCCN 来对具有不同粒度的视觉特征的多模态上下文向量进行建模。最后,我们获得两个多模态上下文向量,将它们融合并合并到解码器中以预测目标词。在英德英法翻译 Multi30K 数据集上的实验结果证明了 DCCN 的优越性。我们的代码可在 https://github.com/DeepLearnXMU/MM-DCCN 上找到。我们用全局和区域视觉特征来表示输入图像,我们引入了两个并行的 DCCN 来对具有不同粒度的视觉特征的多模态上下文向量进行建模。最后,我们获得两个多模态上下文向量,将它们融合并合并到解码器中以预测目标词。在英德英法翻译 Multi30K 数据集上的实验结果证明了 DCCN 的优越性。我们的代码可在 https://github.com/DeepLearnXMU/MM-DCCN 上找到。我们用全局和区域视觉特征来表示输入图像,我们引入了两个并行的 DCCN 来对具有不同粒度的视觉特征的多模态上下文向量进行建模。最后,我们获得两个多模态上下文向量,将它们融合并合并到解码器中以预测目标词。在英德英法翻译 Multi30K 数据集上的实验结果证明了 DCCN 的优越性。我们的代码可在 https://github.com/DeepLearnXMU/MM-DCCN 上找到。在英德英法翻译 Multi30K 数据集上的实验结果证明了 DCCN 的优越性。我们的代码可在 https://github.com/DeepLearnXMU/MM-DCCN 上找到。在英德英法翻译 Multi30K 数据集上的实验结果证明了 DCCN 的优越性。我们的代码可在 https://github.com/DeepLearnXMU/MM-DCCN 上找到。
更新日期:2020-09-07
down
wechat
bug