当前位置: X-MOL 学术arXiv.cs.NE › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
DeepErase: Weakly Supervised Ink Artifact Removal in Document Text Images
arXiv - CS - Neural and Evolutionary Computing Pub Date : 2019-10-15 , DOI: arxiv-1910.07070
W. Ronny Huang, Yike Qi, Qianqian Li, Jonathan Degange

Paper-intensive industries like insurance, law, and government have long leveraged optical character recognition (OCR) to automatically transcribe hordes of scanned documents into text strings for downstream processing. Even in 2019, there are still many scanned documents and mail that come into businesses in non-digital format. Text to be extracted from real world documents is often nestled inside rich formatting, such as tabular structures or forms with fill-in-the-blank boxes or underlines whose ink often touches or even strikes through the ink of the text itself. Further, the text region could have random ink smudges or spurious strokes. Such ink artifacts can severely interfere with the performance of recognition algorithms or other downstream processing tasks. In this work, we propose DeepErase, a neural-based preprocessor to erase ink artifacts from text images. We devise a method to programmatically assemble real text images and real artifacts into realistic-looking "dirty" text images, and use them to train an artifact segmentation network in a weakly supervised manner, since pixel-level annotations are automatically obtained during the assembly process. In addition to high segmentation accuracy, we show that our cleansed images achieve a significant boost in recognition accuracy by popular OCR software such as Tesseract 4.0. Finally, we test DeepErase on out-of-distribution datasets (NIST SDB) of scanned IRS tax return forms and achieve double-digit improvements in accuracy. All experiments are performed on both printed and handwritten text. Code for all experiments is available at https://github.com/yikeqicn/DeepErase

中文翻译:

DeepErase:文档文本图像中弱监督的墨水伪影去除

保险、法律和政府等纸张密集型行业长期以来一直利用光学字符识别 (OCR) 将成群的扫描文档自动转录为文本字符串以供下游处理。即使在 2019 年,仍有许多扫描文档和邮件以非数字格式进入企业。要从现实世界文档中提取的文本通常位于丰富的格式中,例如表格结构或带有填空框或下划线的表格,其墨水经常接触甚至穿透文本本身的墨水。此外,文本区域可能具有随机的墨水污迹或虚假笔划。这种墨水伪影会严重干扰识别算法或其他下游处理任务的性能。在这项工作中,我们提出了 DeepErase,一种基于神经的预处理器,用于从文本图像中擦除墨水伪影。我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释。除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释。除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们表明,通过 Tesseract 4.0 等流行的 OCR 软件,我们清理过的图像显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们表明,通过 Tesseract 4.0 等流行的 OCR 软件,我们清理过的图像显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得
更新日期:2020-01-17
down
wechat
bug