当前位置: X-MOL 学术Int. J. Pattern Recognit. Artif. Intell. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Trajectory-Based Method for Dynamic Scene Recognition
International Journal of Pattern Recognition and Artificial Intelligence ( IF 0.9 ) Pub Date : 2021-05-15 , DOI: 10.1142/s0218001421500294
Xiaoming Peng 1, 2 , Abdesselam Bouzerdoum 1, 3 , Son Lam Phung 1
Affiliation  

Existing methods for dynamic scene recognition mostly use global features extracted from the entire video frame or a video segment. In this paper, a trajectory-based dynamic scene recognition method is proposed. A trajectory is formed by a pixel moving across consecutive frames of a video segment. The local regions surrounding the trajectory provide useful appearance and motion information about a portion of the video segment. The proposed method works at several stages. First, dense and evenly distributed trajectories are extracted from a video segment. Then, the fully-connected-layer features are extracted from each trajectory using a pre-trained Convolutional Neural Networks (CNNs) model, forming a feature sequence. Next, these feature sequences are fed into a Long-Short-Term-Memory (LSTM) network to learn their temporal behavior. Finally, by aggregating the information of the trajectories, a global representation of the video segment can be obtained for classification purposes. The LSTM is trained using synthetic trajectory feature sequences instead of real ones. The synthetic feature sequences are generated with a series of generative adversarial networks (GANs). In addition to classification, category-specific discriminative trajectories are located in a video segment, which help reveal what portions of a video segment are more important than others. This is achieved by formulating an optimization problem to learn discriminative part detectors for all categories simultaneously. Experimental results on two benchmark dynamic scene datasets show that the proposed method is very competitive with six other methods.

中文翻译:

一种基于轨迹的动态场景识别方法

现有的动态场景识别方法大多使用从整个视频帧或视频片段中提取的全局特征。本文提出了一种基于轨迹的动态场景识别方法。轨迹是由一个像素在视频片段的连续帧上移动形成的。轨迹周围的局部区域提供了有关视频片段一部分的有用外观和运动信息。所提出的方法在几个阶段起作用。首先,从视频片段中提取密集且分布均匀的轨迹。然后,使用预训练的卷积神经网络 (CNN) 模型从每个轨迹中提取全连接层特征,形成特征序列。接下来,将这些特征序列输入长短期记忆 (LSTM) 网络以学习它们的时间行为。最后,通过聚合轨迹信息,可以获得视频片段的全局表示以用于分类目的。LSTM 使用合成轨迹特征序列而不是真实序列进行训练。合成特征序列由一系列生成对抗网络 (GAN) 生成。除了分类之外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定一个优化问题来同时学习所有类别的判别部分检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。出于分类目的,可以获得视频片段的全局表示。LSTM 使用合成轨迹特征序列而不是真实序列进行训练。合成特征序列由一系列生成对抗网络 (GAN) 生成。除了分类之外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定一个优化问题来同时学习所有类别的判别部分检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。出于分类目的,可以获得视频片段的全局表示。LSTM 使用合成轨迹特征序列而不是真实序列进行训练。合成特征序列由一系列生成对抗网络 (GAN) 生成。除了分类之外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定一个优化问题来同时学习所有类别的判别部分检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。LSTM 使用合成轨迹特征序列而不是真实序列进行训练。合成特征序列由一系列生成对抗网络 (GAN) 生成。除了分类之外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定一个优化问题来同时学习所有类别的判别部分检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。LSTM 使用合成轨迹特征序列而不是真实序列进行训练。合成特征序列由一系列生成对抗网络 (GAN) 生成。除了分类之外,特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定一个优化问题来同时学习所有类别的判别部分检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定一个优化问题来同时学习所有类别的判别部分检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。特定类别的判别轨迹位于视频片段中,这有助于揭示视频片段的哪些部分比其他部分更重要。这是通过制定一个优化问题来同时学习所有类别的判别部分检测器来实现的。在两个基准动态场景数据集上的实验结果表明,该方法与其他六种方法相比具有很强的竞争力。
更新日期:2021-05-15
down
wechat
bug