当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
The Open Images Dataset V4
International Journal of Computer Vision ( IF 11.6 ) Pub Date : 2020-03-13 , DOI: 10.1007/s11263-020-01316-z
Alina Kuznetsova , Hassan Rom , Neil Alldrin , Jasper Uijlings , Ivan Krasin , Jordi Pont-Tuset , Shahab Kamali , Stefan Popov , Matteo Malloci , Alexander Kolesnikov , Tom Duerig , Vittorio Ferrari

We present Open Images V4, a dataset of 9.2M images with unified annotations for image classification, object detection and visual relationship detection. The images have a Creative Commons Attribution license that allows to share and adapt the material, and they have been collected from Flickr without a predefined list of class names or tags, leading to natural class statistics and avoiding an initial design bias. Open Images V4 offers large scale across several dimensions: 30.1M image-level labels for 19.8k concepts, 15.4M bounding boxes for 600 object classes, and 375k visual relationship annotations involving 57 classes. For object detection in particular, we provide $$15\times $$ 15 × more bounding boxes than the next largest datasets (15.4M boxes on 1.9M images). The images often show complex scenes with several objects (8 annotated objects per image on average). We annotated visual relationships between them, which support visual relationship detection, an emerging task that requires structured reasoning. We provide in-depth comprehensive statistics about the dataset, we validate the quality of the annotations, we study how the performance of several modern models evolves with increasing amounts of training data, and we demonstrate two applications made possible by having unified annotations of multiple types coexisting in the same images. We hope that the scale, quality, and variety of Open Images V4 will foster further research and innovation even beyond the areas of image classification, object detection, and visual relationship detection.

中文翻译:

开放图像数据集 V4

我们展示了 Open Images V4,这是一个包含 9.2M 图像的数据集,具有用于图像分类、对象检测和视觉关系检测的统一注释。这些图像具有知识共享署名许可,允许共享和改编材料,并且它们是从 Flickr 收集的,没有预定义的类名或标签列表,从而导致自然的类统计并避免初始设计偏差。Open Images V4 在多个维度上提供了大规模:用于 19.8k 概念的 30.1M 图像级标签、用于 600 个对象类的 15.4M 边界框以及涉及 57 个类的 375k 视觉关系注释。特别是对于目标检测,我们提供了 $15\times $$15 × 比下一个最大的数据集(190 万张图像上的 1540 万个框)更多的边界框。图像通常显示具有多个对象的复杂场景(平均每个图像 8 个带注释的对象)。我们注释了它们之间的视觉关系,支持视觉关系检测,这是一项需要结构化推理的新兴任务。我们提供有关数据集的深入全面的统计数据,验证注释的质量,研究几种现代模型的性能如何随着训练数据量的增加而演变,并演示了通过多种类型的统一注释实现的两个应用程序共存于相同的图像中。我们希望 Open Images V4 的规模、质量和多样性能够促进进一步的研究和创新,甚至超越图像分类、对象检测和视觉关系检测领域。我们注释了它们之间的视觉关系,支持视觉关系检测,这是一项需要结构化推理的新兴任务。我们提供有关数据集的深入全面的统计数据,验证注释的质量,研究几种现代模型的性能如何随着训练数据量的增加而演变,并演示了通过多种类型的统一注释实现的两个应用程序共存于相同的图像中。我们希望 Open Images V4 的规模、质量和多样性能够促进进一步的研究和创新,甚至超越图像分类、对象检测和视觉关系检测领域。我们注释了它们之间的视觉关系,支持视觉关系检测,这是一项需要结构化推理的新兴任务。我们提供有关数据集的深入全面的统计数据,验证注释的质量,研究几种现代模型的性能如何随着训练数据量的增加而演变,并演示了通过多种类型的统一注释实现的两个应用程序共存于相同的图像中。我们希望 Open Images V4 的规模、质量和多样性能够促进进一步的研究和创新,甚至超越图像分类、对象检测和视觉关系检测领域。我们提供有关数据集的深入全面的统计数据,验证注释的质量,研究几种现代模型的性能如何随着训练数据量的增加而演变,并演示了通过多种类型的统一注释实现的两个应用程序共存于相同的图像中。我们希望 Open Images V4 的规模、质量和多样性能够促进进一步的研究和创新,甚至超越图像分类、对象检测和视觉关系检测领域。我们提供有关数据集的深入全面的统计数据,验证注释的质量,研究几种现代模型的性能如何随着训练数据量的增加而演变,并演示了通过多种类型的统一注释实现的两个应用程序共存于相同的图像中。我们希望 Open Images V4 的规模、质量和多样性能够促进进一步的研究和创新,甚至超越图像分类、对象检测和视觉关系检测领域。
更新日期:2020-03-13
down
wechat
bug