当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Subjects and Their Objects: Localizing Interactees for a Person-Centric View of Importance
International Journal of Computer Vision ( IF 19.5 ) Pub Date : 2016-10-28 , DOI: 10.1007/s11263-016-0958-6
Chao-Yeh Chen , Kristen Grauman

Understanding images with people often entails understanding their interactions with other objects or people. As such, given a novel image, a vision system ought to infer which other objects/people play an important role in a given person’s activity. However, existing methods are limited to learning action-specific interactions (e.g., how the pose of a tennis player relates to the position of his racquet when serving the ball) for improved recognition, making them unequipped to reason about novel interactions with actions or objects unobserved in the training data. We propose to predict the “interactee” in novel images—that is, to localize the object of a person’s action. Given an arbitrary image with a detected person, the goal is to produce a saliency map indicating the most likely positions and scales where that person’s interactee would be found. To that end, we explore ways to learn the generic, action-independent connections between (a) representations of a person’s pose, gaze, and scene cues and (b) the interactee object’s position and scale. We provide results on a newly collected UT Interactee dataset spanning more than 10,000 images from SUN, PASCAL, and COCO. We show that the proposed interaction-informed saliency metric has practical utility for four tasks: contextual object detection, image retargeting, predicting object importance, and data-driven natural language scene description. All four scenarios reveal the value in linking the subject to its object in order to understand the story of an image.

中文翻译:

主体及其客体:以人为中心的重要性观点本地化交互者

理解人的图像通常需要理解他们与其他物体或人的互动。因此,给定一个新的图像,视觉系统应该推断哪些其他物体/人在给定的人的活动中发挥了重要作用。然而,现有方法仅限于学习特定于动作的交互(例如,网球运动员在发球时的姿势如何与他的球拍位置相关联)以提高识别能力,使它们无法推理与动作或物体的新交互在训练数据中未观察到。我们建议预测新图像中的“交互对象”——即定位一个人的动作对象。给定带有检测到的人的任意图像,目标是生成一个显着图,指示最可能找到该人的交互对象的位置和比例。为此,我们探索了学习 (a) 人的姿势、凝视和场景线索的表示与 (b) 交互对象的位置和比例之间的通用的、独立于动作的联系的方法。我们提供了新收集的 UT Interactee 数据集的结果,该数据集包含来自 SUN、PASCAL 和 COCO 的 10,000 多张图像。我们表明,所提出的交互通知显着性度量对四项任务具有实际效用:上下文对象检测、图像重定向、预测对象重要性和数据驱动的自然语言场景描述。所有四个场景都揭示了将主体与其客体联系起来以理解图像故事的价值。我们探索了学习 (a) 人的姿势、凝视和场景线索的表示与 (b) 交互对象的位置和比例之间的通用的、独立于动作的联系的方法。我们提供了新收集的 UT Interactee 数据集的结果,该数据集包含来自 SUN、PASCAL 和 COCO 的 10,000 多张图像。我们表明,所提出的交互通知显着性度量对四项任务具有实际效用:上下文对象检测、图像重定向、预测对象重要性和数据驱动的自然语言场景描述。所有四个场景都揭示了将主体与其客体联系起来以理解图像故事的价值。我们探索了学习 (a) 人的姿势、凝视和场景线索的表示与 (b) 交互对象的位置和比例之间的通用的、独立于动作的联系的方法。我们提供了新收集的 UT Interactee 数据集的结果,该数据集包含来自 SUN、PASCAL 和 COCO 的 10,000 多张图像。我们表明,所提出的交互通知显着性度量对四项任务具有实际效用:上下文对象检测、图像重定向、预测对象重要性和数据驱动的自然语言场景描述。所有四个场景都揭示了将主体与其客体联系起来以理解图像故事的价值。我们提供了新收集的 UT Interactee 数据集的结果,该数据集包含来自 SUN、PASCAL 和 COCO 的 10,000 多张图像。我们表明,所提出的交互通知显着性度量对四项任务具有实际效用:上下文对象检测、图像重定向、预测对象重要性和数据驱动的自然语言场景描述。所有四个场景都揭示了将主体与其客体联系起来以理解图像故事的价值。我们提供了新收集的 UT Interactee 数据集的结果,该数据集包含来自 SUN、PASCAL 和 COCO 的 10,000 多张图像。我们表明,所提出的交互通知显着性度量对四项任务具有实际效用:上下文对象检测、图像重定向、预测对象重要性和数据驱动的自然语言场景描述。所有四个场景都揭示了将主体与其客体联系起来以理解图像故事的价值。
更新日期:2016-10-28
down
wechat
bug