当前位置:
X-MOL 学术
›
arXiv.cs.NE
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
DeepErase: Weakly Supervised Ink Artifact Removal in Document Text Images
arXiv - CS - Neural and Evolutionary Computing Pub Date : 2019-10-15 , DOI: arxiv-1910.07070 W. Ronny Huang, Yike Qi, Qianqian Li, Jonathan Degange
arXiv - CS - Neural and Evolutionary Computing Pub Date : 2019-10-15 , DOI: arxiv-1910.07070 W. Ronny Huang, Yike Qi, Qianqian Li, Jonathan Degange
Paper-intensive industries like insurance, law, and government have long
leveraged optical character recognition (OCR) to automatically transcribe
hordes of scanned documents into text strings for downstream processing. Even
in 2019, there are still many scanned documents and mail that come into
businesses in non-digital format. Text to be extracted from real world
documents is often nestled inside rich formatting, such as tabular structures
or forms with fill-in-the-blank boxes or underlines whose ink often touches or
even strikes through the ink of the text itself. Further, the text region could
have random ink smudges or spurious strokes. Such ink artifacts can severely
interfere with the performance of recognition algorithms or other downstream
processing tasks. In this work, we propose DeepErase, a neural-based
preprocessor to erase ink artifacts from text images. We devise a method to
programmatically assemble real text images and real artifacts into
realistic-looking "dirty" text images, and use them to train an artifact
segmentation network in a weakly supervised manner, since pixel-level
annotations are automatically obtained during the assembly process. In addition
to high segmentation accuracy, we show that our cleansed images achieve a
significant boost in recognition accuracy by popular OCR software such as
Tesseract 4.0. Finally, we test DeepErase on out-of-distribution datasets (NIST
SDB) of scanned IRS tax return forms and achieve double-digit improvements in
accuracy. All experiments are performed on both printed and handwritten text.
Code for all experiments is available at https://github.com/yikeqicn/DeepErase
中文翻译:
DeepErase:文档文本图像中弱监督的墨水伪影去除
保险、法律和政府等纸张密集型行业长期以来一直利用光学字符识别 (OCR) 将成群的扫描文档自动转录为文本字符串以供下游处理。即使在 2019 年,仍有许多扫描文档和邮件以非数字格式进入企业。要从现实世界文档中提取的文本通常位于丰富的格式中,例如表格结构或带有填空框或下划线的表格,其墨水经常接触甚至穿透文本本身的墨水。此外,文本区域可能具有随机的墨水污迹或虚假笔划。这种墨水伪影会严重干扰识别算法或其他下游处理任务的性能。在这项工作中,我们提出了 DeepErase,一种基于神经的预处理器,用于从文本图像中擦除墨水伪影。我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释。除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释。除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们表明,通过 Tesseract 4.0 等流行的 OCR 软件,我们清理过的图像显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们表明,通过 Tesseract 4.0 等流行的 OCR 软件,我们清理过的图像显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得
更新日期:2020-01-17
中文翻译:
DeepErase:文档文本图像中弱监督的墨水伪影去除
保险、法律和政府等纸张密集型行业长期以来一直利用光学字符识别 (OCR) 将成群的扫描文档自动转录为文本字符串以供下游处理。即使在 2019 年,仍有许多扫描文档和邮件以非数字格式进入企业。要从现实世界文档中提取的文本通常位于丰富的格式中,例如表格结构或带有填空框或下划线的表格,其墨水经常接触甚至穿透文本本身的墨水。此外,文本区域可能具有随机的墨水污迹或虚假笔划。这种墨水伪影会严重干扰识别算法或其他下游处理任务的性能。在这项工作中,我们提出了 DeepErase,一种基于神经的预处理器,用于从文本图像中擦除墨水伪影。我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们设计了一种方法,以编程方式将真实文本图像和真实工件组装成看起来逼真的“脏”文本图像,并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释. 除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释。除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 并使用它们以弱监督的方式训练工件分割网络,因为在组装过程中会自动获得像素级注释。除了高分割精度外,我们还表明,我们清洗过的图像通过流行的 OCR 软件(如 Tesseract 4.0)显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们表明,通过 Tesseract 4.0 等流行的 OCR 软件,我们清理过的图像显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得 我们表明,通过 Tesseract 4.0 等流行的 OCR 软件,我们清理过的图像显着提高了识别精度。最后,我们在扫描的 IRS 纳税申报表的分布外数据集 (NIST SDB) 上测试 DeepErase,并在准确性方面实现了两位数的改进。所有实验均在印刷和手写文本上进行。所有实验的代码可在 https://github.com/yikeqicn/DeepErase 获得