当前位置: X-MOL 学术Int. J. Comput. Vis. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Residual Dual Scale Scene Text Spotting by Fusing Bottom-Up and Top-Down Processing
International Journal of Computer Vision ( IF 11.6 ) Pub Date : 2020-10-24 , DOI: 10.1007/s11263-020-01388-x
Wei Feng , Fei Yin , Xu-Yao Zhang , Wenhao He , Cheng-Lin Liu

Existing methods for arbitrary shaped text spotting can be divided into two categories: bottom-up methods detect and recognize local areas of text, and then group them into text lines or words; top-down methods detect text regions of interest, then apply polygon fitting and text recognition to the detected regions. In this paper, we analyze the advantages and disadvantages of these two methods, and propose a novel text spotter by fusing bottom-up and top-down processing. To detect text of arbitrary shapes, we employ a bottom-up detector to describe text with a series of rotated squares, and design a top-down detector to represent the region of interest with a minimum enclosing rotated rectangle. Then the text boundary is determined by fusing the outputs of two detectors. To connect arbitrary shaped text detection and recognition, we propose a differentiable operator named RoISlide, which can extract features for arbitrary text regions from whole image feature maps. Based on the extracted features through RoISlide, a CNN and CTC based text recognizer is introduced to make the framework free from character-level annotations. To improve the robustness against scale variance, we further propose a residual dual scale spotting mechanism, where two spotters work on different feature levels, and the high-level spotter is based on residuals of the low-level spotter. Our method has achieved state-of-the-art performance on four English datasets and one Chinese dataset, including both arbitrary shaped and oriented texts. We also provide abundant ablation experiments to analyze how the key components affect the performance.

中文翻译:

通过融合自底向上和自顶向下处理的残差双尺度场景文本识别

现有的任意形状文本识别方法可以分为两类:自下而上的方法检测和识别文本的局部区域,然后将它们分组为文本行或单词;自顶向下的方法检测感兴趣的文本区域,然后对检测到的区域应用多边形拟合和文本识别。在本文中,我们分析了这两种方法的优缺点,并提出了一种融合自底向上和自顶向下处理的新型文本发现器。为了检测任意形状的文本,我们采用自下而上的检测器来描述具有一系列旋转方块的文本,并设计了一个自上而下的检测器来表示具有最小封闭旋转矩形的感兴趣区域。然后通过融合两个检测器的输出来确定文本边界。连接任意形状的文本检测和识别,我们提出了一个名为 RoISlide 的可微算子,它可以从整个图像特征图中提取任意文本区域的特征。基于通过 RoISlide 提取的特征,引入了基于 CNN 和 CTC 的文本识别器,使框架摆脱字符级注释。为了提高对尺度方差的鲁棒性,我们进一步提出了一种残差双尺度发现机制,其中两个观察者在不同的特征级别上工作,而高级观察者基于低级观察者的残差。我们的方法在四个英文数据集和一个中文数据集上取得了最先进的性能,包括任意形状和定向的文本。我们还提供了丰富的消融实验来分析关键组件如何影响性能。它可以从整个图像特征图中提取任意文本区域的特征。基于通过 RoISlide 提取的特征,引入了基于 CNN 和 CTC 的文本识别器,使框架摆脱字符级注释。为了提高对尺度方差的鲁棒性,我们进一步提出了一种残差双尺度发现机制,其中两个观察者在不同的特征级别上工作,而高级观察者基于低级观察者的残差。我们的方法在四个英文数据集和一个中文数据集上取得了最先进的性能,包括任意形状和定向的文本。我们还提供了丰富的消融实验来分析关键组件如何影响性能。它可以从整个图像特征图中提取任意文本区域的特征。基于通过 RoISlide 提取的特征,引入了基于 CNN 和 CTC 的文本识别器,使框架摆脱字符级注释。为了提高对尺度方差的鲁棒性,我们进一步提出了一种残差双尺度发现机制,其中两个观察者在不同的特征级别上工作,而高级观察者基于低级观察者的残差。我们的方法在四个英文数据集和一个中文数据集上取得了最先进的性能,包括任意形状和定向的文本。我们还提供了丰富的消融实验来分析关键组件如何影响性能。引入了基于 CNN 和 CTC 的文本识别器,使框架摆脱字符级注释。为了提高对尺度方差的鲁棒性,我们进一步提出了一种残差双尺度发现机制,其中两个观察者在不同的特征级别上工作,而高级观察者基于低级观察者的残差。我们的方法在四个英文数据集和一个中文数据集上取得了最先进的性能,包括任意形状和定向的文本。我们还提供了丰富的消融实验来分析关键组件如何影响性能。引入了基于 CNN 和 CTC 的文本识别器,使框架免于字符级注释。为了提高对尺度方差的鲁棒性,我们进一步提出了一种残差双尺度发现机制,其中两个观察者在不同的特征级别上工作,而高级观察者基于低级观察者的残差。我们的方法在四个英文数据集和一个中文数据集上取得了最先进的性能,包括任意形状和定向的文本。我们还提供了丰富的消融实验来分析关键组件如何影响性能。其中两个观察者在不同的特征级别上工作,高级观察者基于低级观察者的残差。我们的方法在四个英文数据集和一个中文数据集上取得了最先进的性能,包括任意形状和定向的文本。我们还提供了丰富的消融实验来分析关键组件如何影响性能。其中两个观察者在不同的特征级别上工作,高级观察者基于低级观察者的残差。我们的方法在四个英文数据集和一个中文数据集上取得了最先进的性能,包括任意形状和定向的文本。我们还提供了丰富的消融实验来分析关键组件如何影响性能。
更新日期:2020-10-24
down
wechat
bug