当前位置: X-MOL 学术Comput. Sci. Rev. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Comparative analysis on cross-modal information retrieval: A review
Computer Science Review ( IF 12.9 ) Pub Date : 2020-12-08 , DOI: 10.1016/j.cosrev.2020.100336
Parminder Kaur , Husanbir Singh Pannu , Avleen Kaur Malhi

Human beings experience life through a spectrum of modes such as vision, taste, hearing, smell, and touch. These multiple modes are integrated for information processing in our brain using a complex network of neuron connections. Likewise for artificial intelligence to mimic the human way of learning and evolve into the next generation, it should elucidate multi-modal information fusion efficiently. Modality is a channel that conveys information about an object or an event such as image, text, video, and audio. A research problem is said to be multi-modal when it incorporates information from more than a single modality. Multi-modal systems involve one mode of data to be inquired for any (same or varying) modality outcome whereas cross-modal system strictly retrieves the information from a dissimilar modality. As the input–output queries belong to diverse modal families, their coherent comparison is still an open challenge with their primitive forms and subjective definition of content similarity. Numerous techniques have been proposed by researchers to handle this issue and to reduce the semantic gap of information retrieval among different modalities. This paper focuses on a comparative analysis of various research works in the field of cross-modal information retrieval. Comparative analysis of several cross-modal representations and the results of the state-of-the-art methods when applied on benchmark datasets have also been discussed. In the end, open issues are presented to enable the researchers to a better understanding of the present scenario and to identify future research directions.



中文翻译:

跨模式信息检索的比较分析:综述

人类通过视觉,味觉,听觉,嗅觉和触觉等多种模式来体验生活。通过使用复杂的神经元连接网络,可以将这些多种模式集成到大脑中进行信息处理。同样,对于模仿人类学习方式并发展到下一代的人工智能,人工智能也应有效阐明多模式信息融合。模态是传达有关对象或事件的信息的通道,例如图像,文本,视频和音频。一个研究问题被认为是多模式的,因为它包含了来自多个模式的信息。多模式系统涉及要查询任何(相同或变化)模态结果的一种数据模式,而跨模式系统则严格从不同的模态中检索信息。由于输入输出查询属于不同的模态族,因此它们的原始比较和内容相似性的主观定义仍然是一个连贯的挑战。研究人员已经提出了许多技术来解决这个问题,并减少不同形式之间信息检索的语义鸿沟。本文着重对跨模式信息检索领域的各种研究工作进行比较分析。还讨论了几种交叉模式表示形式的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了未解决的问题,以使研究人员可以更好地了解当前情况并确定未来的研究方向。由于其原始形式和内容相似性的主观定义,它们的连贯比较仍然是一个开放的挑战。研究人员已经提出了许多技术来解决这个问题,并减少不同形式之间信息检索的语义鸿沟。本文着重对跨模式信息检索领域的各种研究工作进行比较分析。还讨论了几种交叉模式表示形式的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了未解决的问题,以使研究人员可以更好地了解当前情况并确定未来的研究方向。由于其原始形式和内容相似性的主观定义,它们的连贯比较仍然是一个开放的挑战。研究人员已经提出了许多技术来解决这个问题,并减少不同形式之间信息检索的语义鸿沟。本文着重对跨模式信息检索领域的各种研究工作进行比较分析。还讨论了几种交叉模式表示形式的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了未解决的问题,以使研究人员可以更好地了解当前情况并确定未来的研究方向。研究人员已经提出了许多技术来解决这个问题,并减少不同形式之间信息检索的语义鸿沟。本文着重对跨模式信息检索领域的各种研究工作进行比较分析。还讨论了几种交叉模式表示形式的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了未解决的问题,以使研究人员可以更好地了解当前情况并确定未来的研究方向。研究人员已经提出了许多技术来解决这个问题,并减少不同形式之间信息检索的语义鸿沟。本文着重对跨模式信息检索领域的各种研究工作进行比较分析。还讨论了几种交叉模式表示形式的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了未解决的问题,以使研究人员可以更好地了解当前情况并确定未来的研究方向。还讨论了几种交叉模式表示形式的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了未解决的问题,以使研究人员可以更好地了解当前情况并确定未来的研究方向。还讨论了几种交叉模式表示形式的比较分析以及应用于基准数据集的最新方法的结果。最后,提出了未解决的问题,以使研究人员可以更好地了解当前情况并确定未来的研究方向。

更新日期:2020-12-08
down
wechat
bug