当前位置: X-MOL 学术arXiv.cs.CV › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
视觉问答:哪些调查过的应用程序?
arXiv - CS - Computer Vision and Pattern Recognition Pub Date : 2021-03-04 , DOI: arxiv-2103.02937
Silvio Barra, Carmen Bisogni, Maria De Marsico, Stefano Ricciardi

视觉问答(VQA)是一个非常刺激和具有挑战性的研究领域,计算机视觉(CV)和自然语言过程(NLP)最近相遇了。在图像字幕和视频摘要中,语义信息完全包含在静态图像或视频动态信息中,并且只需以与人类一致的方式进行挖掘和表达即可。与此不同的是,在VQA中,必须将同一媒体中的语义信息与以自然语言表达的问题所隐含的语义进行比较,从而使与人工智能相关的工作加倍。最近有关VQA方法的一些调查集中在与图像相关的处理或与语言相关的处理基础的方法上,或集中于始终融合所传达信息的方法上。仅建议可能的应用,实际上,大多数被引用的著作都依赖于用于评估VQA系统构件的通用数据集。本文宁愿考虑针对实际应用程序的建议,也可能将绑定到应用程序域的合适数据用作基准。本文还报告了VQA研究中的一些近期挑战。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug