当前位置: X-MOL 学术Int. J. Pattern Recognit. Artif. Intell. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A New Hybrid Method for Caption and Scene Text Classification in Action Video Images
International Journal of Pattern Recognition and Artificial Intelligence ( IF 1.5 ) Pub Date : 2021-09-06 , DOI: 10.1142/s0218001421600090
Lokesh Nandanwar 1 , Palaiahnakote Shivakumara 1 , Umapada Pal 2 , Tong Lu 3 , Michael Blumenstein 4
Affiliation  

Achieving a better recognition rate for text in action video images is challenging due to multiple types of text with unpredictable actions in the background. In this paper, we propose a new method for the classification of caption (which is edited text) and scene text (text that is a part of the video) in video images. This work considers five action classes, namely, Yoga, Concert, Teleshopping, Craft, and Recipes, where it is expected that both types of text play a vital role in understanding the video content. The proposed method introduces a new fusion criterion based on Discrete Cosine Transform (DCT) and Fourier coefficients to obtain the reconstructed images for caption and scene text. The fusion criterion involves computing the variances for coefficients of corresponding pixels of DCT and Fourier images, and the same variances are considered as the respective weights. This step results in Reconstructed image-1. Inspired by the special property of Chebyshev-Harmonic-Fourier-Moments (CHFM) that has the ability to reconstruct a redundancy-free image, we explore CHFM for obtaining the Reconstructed image-2. The reconstructed images along with the input image are passed to a Deep Convolutional Neural Network (DCNN) for classification of caption/scene text. Experimental results on five action classes and a comparative study with the existing methods demonstrate that the proposed method is effective. In addition, the recognition results of the before and after the classification obtained from different methods show that the recognition performance improves significantly after classification, compared to before classification.

中文翻译:

动作视频图像中字幕和场景文本分类的新混合方法

由于多种类型的文本在背景中具有不可预测的动作,因此在动作视频图像中实现更好的文本识别率具有挑战性。在本文中,我们提出了一种新方法,用于对视频图像中的字幕(即编辑的文本)和场景文本(作为视频的一部分的文本)进行分类。这项工作考虑了五个动作类,即瑜伽、音乐会、电话购物、工艺和食谱,预计这两种类型的文本在理解视频内容方面都起着至关重要的作用。所提出的方法引入了一种基于离散余弦变换 (DCT) 和傅里叶系数的新融合准则,以获得字幕和场景文本的重建图像。融合准则涉及计算 DCT 和傅里叶图像对应像素系数的方差,并且相同的方差被认为是各自的权重。此步骤导致重建图像 1。受切比雪夫谐波傅立叶矩 (CHFM) 具有重建​​无冗余图像能力的特殊性质的启发,我们探索 CHFM 以获得重建的图像 2。重建的图像与输入图像一起被传递到深度卷积神经网络 (DCNN) 以对字幕/场景文本进行分类。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。此步骤导致重建图像 1。受切比雪夫谐波傅立叶矩 (CHFM) 具有重建​​无冗余图像能力的特殊性质的启发,我们探索 CHFM 以获得重建的图像 2。重建的图像与输入图像一起被传递到深度卷积神经网络 (DCNN) 以对字幕/场景文本进行分类。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。此步骤导致重建图像 1。受切比雪夫谐波傅立叶矩 (CHFM) 具有重建​​无冗余图像能力的特殊性质的启发,我们探索 CHFM 以获得重建的图像 2。重建的图像与输入图像一起被传递到深度卷积神经网络 (DCNN) 以对字幕/场景文本进行分类。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。受切比雪夫谐波傅立叶矩 (CHFM) 具有重建​​无冗余图像能力的特殊性质的启发,我们探索 CHFM 以获得重建的图像 2。重建的图像与输入图像一起被传递到深度卷积神经网络 (DCNN) 以对字幕/场景文本进行分类。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。受切比雪夫谐波傅立叶矩 (CHFM) 具有重建​​无冗余图像能力的特殊性质的启发,我们探索 CHFM 以获得重建的图像 2。重建的图像与输入图像一起被传递到深度卷积神经网络 (DCNN) 以对字幕/场景文本进行分类。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。我们探索 CHFM 以获得重建的图像 2。重建的图像与输入图像一起被传递到深度卷积神经网络 (DCNN) 以对字幕/场景文本进行分类。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。我们探索 CHFM 以获得重建的图像 2。重建的图像与输入图像一起被传递到深度卷积神经网络 (DCNN) 以对字幕/场景文本进行分类。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。五个动作类别的实验结果以及与现有方法的比较研究表明,所提出的方法是有效的。此外,不同方法得到的分类前后的识别结果表明,分类后的识别性能较分类前有显着提高。
更新日期:2021-09-06
down
wechat
bug