当前位置: X-MOL 学术Int. J. Pattern Recognit. Artif. Intell. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Trajectory-Based Method for Dynamic Scene Recognition
International Journal of Pattern Recognition and Artificial Intelligence ( IF 0.9 ) Pub Date : 2021-05-15
Xiaoming Peng, Abdesselam Bouzerdoum, Son Lam Phung

Existing methods for dynamic scene recognition mostly use global features extracted from the entire video frame or a video segment. In this paper, a trajectory-based dynamic scene recognition method is proposed. A trajectory is formed by a pixel moving across consecutive frames of a video segment. The local regions surrounding the trajectory provide useful appearance and motion information about a portion of the video segment. The proposed method works at several stages. First, dense and evenly distributed trajectories are extracted from a video segment. Then, the fully-connected-layer features are extracted from each trajectory using a pre-trained Convolutional Neural Networks (CNNs) model, forming a feature sequence. Next, these feature sequences are fed into a Long-Short-Term-Memory (LSTM) network to learn their temporal behavior. Finally, by aggregating the information of the trajectories, a global representation of the video segment can be obtained for classification purposes. The LSTM is trained using synthetic trajectory feature sequences instead of real ones. The synthetic feature sequences are generated with a series of generative adversarial networks (GANs). In addition to classification, category-specific discriminative trajectories are located in a video segment, which help reveal what portions of a video segment are more important than others. This is achieved by formulating an optimization problem to learn discriminative part detectors for all categories simultaneously. Experimental results on two benchmark dynamic scene datasets show that the proposed method is very competitive with six other methods.



中文翻译:

基于轨迹的动态场景识别方法

用于动态场景识别的现有方法主要使用从整个视频帧或视频片段中提取的全局特征。提出了一种基于轨迹的动态场景识别方法。轨迹由跨视频段的连续帧移动的像素形成。轨迹周围的局部区域提供有关视频片段一部分的有用外观和运动信息。所提出的方法在多个阶段起作用。首先,从视频片段中提取密集且均匀分布的轨迹。然后,使用预训练的卷积神经网络(CNN)模型从每个轨迹提取全连接层特征,从而形成特征序列。接下来,将这些特征序列输入到长期记忆(LSTM)网络中,以了解它们的时间行为。最后,通过聚集轨迹的信息,可以出于分类目的获得视频片段的全局表示。LSTM是使用合成的轨迹特征序列而不是真实的轨迹特征序列进行训练的。合成特征序列是通过一系列生成对抗网络(GAN)生成的。除了分类外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定优化问题来同时学习所有类别的区分性零件检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。可以出于分类目的获得视频片段的全局表示。LSTM是使用合成的轨迹特征序列而不是真实的轨迹特征序列进行训练的。合成特征序列是通过一系列生成对抗网络(GAN)生成的。除了分类外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定优化问题来同时学习所有类别的区分性零件检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。可以出于分类目的获得视频片段的全局表示。LSTM是使用合成的轨迹特征序列而不是真实的轨迹特征序列进行训练的。合成特征序列是通过一系列生成对抗网络(GAN)生成的。除了分类外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定优化问题来同时学习所有类别的区分性零件检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。LSTM是使用合成的轨迹特征序列而不是真实的轨迹特征序列进行训练的。合成特征序列是通过一系列生成对抗网络(GAN)生成的。除了分类外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定优化问题来同时学习所有类别的区分性零件检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。LSTM是使用合成的轨迹特征序列而不是真实的轨迹特征序列进行训练的。合成特征序列是通过一系列生成对抗网络(GAN)生成的。除了分类外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定优化问题来同时学习所有类别的区分性零件检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法具有很好的竞争性。特定于类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定优化问题来同时学习所有类别的区分性零件检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。特定于类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定优化问题来同时学习所有类别的区分性零件检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。

更新日期:2021-05-17
down
wechat
bug