当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
The Unmanned Aerial Vehicle Benchmark: Object Detection, Tracking and Baseline
International Journal of Computer Vision ( IF 11.6 ) Pub Date : 2019-12-03 , DOI: 10.1007/s11263-019-01266-1
Hongyang Yu , Guorong Li , Weigang Zhang , Qingming Huang , Dawei Du , Qi Tian , Nicu Sebe

With the increasing popularity of Unmanned Aerial Vehicles (UAVs) in computer vision-related applications, intelligent UAV video analysis has recently attracted the attention of an increasing number of researchers. To facilitate research in the UAV field, this paper presents a UAV dataset with 100 videos featuring approximately 2700 vehicles recorded under unconstrained conditions and 840k manually annotated bounding boxes. These UAV videos were recorded in complex real-world scenarios and pose significant new challenges, such as complex scenes, high density, small objects, and large camera motion, to the existing object detection and tracking methods. These challenges have encouraged us to define a benchmark for three fundamental computer vision tasks, namely, object detection, single object tracking (SOT) and multiple object tracking (MOT), on our UAV dataset. Specifically, our UAV benchmark facilitates evaluation and detailed analysis of state-of-the-art detection and tracking methods on the proposed UAV dataset. Furthermore, we propose a novel approach based on the so-called Context-aware Multi-task Siamese Network (CMSN) model that explores new cues in UAV videos by judging the consistency degree between objects and contexts and that can be used for SOT and MOT. The experimental results demonstrate that our model could make tracking results more robust in both SOT and MOT, showing that the current tracking and detection methods have limitations in dealing with the proposed UAV benchmark and that further research is indeed needed.

中文翻译:

无人驾驶飞行器基准:目标检测、跟踪和基线

随着无人机(UAV)在计算机视觉相关应用中的日益普及,智能无人机视频分析最近吸引了越来越多研究人员的关注。为了促进无人机领域的研究,本文提出了一个无人机数据集,其中包含 100 个视频,其中包含在无约束条件下记录的大约 2700 辆车和 840k 手动注释的边界框。这些无人机视频记录在复杂的现实世界场景中,对现有的物体检测和跟踪方法提出了重大的新挑战,例如复杂场景、高密度、小物体和大相机运动。这些挑战鼓励我们为三个基本的计算机视觉任务定义一个基准,即对象检测、单对象跟踪 (SOT) 和多对象跟踪 (MOT),在我们的无人机数据集上。具体来说,我们的无人机基准有助于对拟议的无人机数据集上最先进的检测和跟踪方法进行评估和详细分析。此外,我们提出了一种基于所谓的上下文感知多任务连体网络(CMSN)模型的新方法,该方法通过判断对象和上下文之间的一致性程度来探索无人机视频中的新线索,可用于 SOT 和 MOT . 实验结果表明,我们的模型可以使 SOT 和 MOT 中的跟踪结果更加稳健,表明当前的跟踪和检测方法在处理所提出的无人机基准方面存在局限性,确实需要进一步研究。我们的无人机基准有助于对拟议的无人机数据集上最先进的检测和跟踪方法进行评估和详细分析。此外,我们提出了一种基于所谓的上下文感知多任务连体网络(CMSN)模型的新方法,该方法通过判断对象和上下文之间的一致性程度来探索无人机视频中的新线索,可用于 SOT 和 MOT . 实验结果表明,我们的模型可以使 SOT 和 MOT 中的跟踪结果更加稳健,表明当前的跟踪和检测方法在处理所提出的无人机基准方面存在局限性,确实需要进一步研究。我们的无人机基准有助于对拟议的无人机数据集上最先进的检测和跟踪方法进行评估和详细分析。此外,我们提出了一种基于所谓的上下文感知多任务连体网络(CMSN)模型的新方法,该方法通过判断对象和上下文之间的一致性程度来探索无人机视频中的新线索,可用于 SOT 和 MOT . 实验结果表明,我们的模型可以使 SOT 和 MOT 中的跟踪结果更加稳健,表明当前的跟踪和检测方法在处理所提出的无人机基准方面存在局限性,确实需要进一步研究。我们提出了一种基于所谓的上下文感知多任务连体网络(CMSN)模型的新方法,该方法通过判断对象和上下文之间的一致性程度来探索无人机视频中的新线索,可用于 SOT 和 MOT。实验结果表明,我们的模型可以使 SOT 和 MOT 中的跟踪结果更加稳健,表明当前的跟踪和检测方法在处理所提出的无人机基准方面存在局限性,确实需要进一步研究。我们提出了一种基于所谓的上下文感知多任务连体网络 (CMSN) 模型的新方法,该方法通过判断对象和上下文之间的一致性程度来探索无人机视频中的新线索,可用于 SOT 和 MOT。实验结果表明,我们的模型可以使 SOT 和 MOT 中的跟踪结果更加稳健,表明当前的跟踪和检测方法在处理所提出的无人机基准方面存在局限性,确实需要进一步研究。
更新日期:2019-12-03
down
wechat
bug