当前位置: X-MOL 学术J. Electron. Imaging › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
U-Net versus Pix2Pix: a comparative study on degraded document image binarization
Journal of Electronic Imaging ( IF 1.1 ) Pub Date : 2020-12-31 , DOI: 10.1117/1.jei.29.6.063019
Arpan Basu 1 , Riktim Mondal 1 , Showmik Bhowmik 2 , Ram Sarkar 1
Affiliation  

Abstract. Document image binarization is the process in which pixels in a document image are classified into two groups—foreground and background. This process becomes challenging when it deals with various degradation and noise present in the images. In the recent past, it has been observed that researchers are relying on deep learning-based approaches to solve the problem of document image binarization. Of these, a group of methods considers the segmentation as a pixel-level classification problem, whereas another group considers it as an image-to-image translation problem. We have explored two popular deep learning-based architectures, one from each group, namely, U-Net and Pix2Pix, and presented a comparative assessment of their performances when applied for degraded document image binarization. In this study, no preprocessing or postprocessing methods are applied, which helps us to realize the actual strength of these architectures for the said purpose. For the performance evaluation and comparative assessment, six publicly available standard datasets, namely, document image binarization competition 2013 (DIBCO 2013), H-DIBCO 2014, H-DIBCO 2016, DIBCO 2017, H-DIBCO 2018, and DIBCO 2019, are considered. The performances of these architectures are compared with the best performing methods of the respective binarization competitions, some state-of-the-art nondeep learning-based methods, and some recently published deep learning-based methods separately. The obtained results confirm that in most of the cases U-Net outperforms the Pix2Pix model.

中文翻译:

U-Net 与 Pix2Pix:退化文档图像二值化的比较研究

摘要。文档图像二值化是将文档图像中的像素分为两组——前景和背景的过程。当它处理图像中存在的各种退化和噪声时,这个过程变得具有挑战性。最近,据观察,研究人员依靠基于深度学习的方法来解决文档图像二值化问题。其中,一组方法将分割视为像素级分类问题,而另一组将其视为图像到图像的转换问题。我们探索了两种流行的基于深度学习的架构,每组一个,即 U-Net 和 Pix2Pix,并在应用于降级文档图像二值化时对它们的性能进行了比较评估。在这项研究中,没有应用任何预处理或后处理方法,这有助于我们实现这些架构的实际强度用于上述目的。对于性能评估和比较评估,考虑了六个公开可用的标准数据集,即文档图像二值化竞赛 2013 (DIBCO 2013)、H-DIBCO 2014、H-DIBCO 2016、DIBCO 2017、H-DIBCO 2018 和 DIBCO 2019 . 这些架构的性能分别与各自二值化竞赛中表现最佳的方法、一些最先进的基于非深度学习的方法和一些最近发表的基于深度学习的方法进行了比较。获得的结果证实,在大多数情况下,U-Net 优于 Pix2Pix 模型。对于性能评估和比较评估,考虑了六个公开可用的标准数据集,即文档图像二值化竞赛 2013 (DIBCO 2013)、H-DIBCO 2014、H-DIBCO 2016、DIBCO 2017、H-DIBCO 2018 和 DIBCO 2019 . 这些架构的性能分别与各自二值化竞赛中表现最佳的方法、一些最先进的基于非深度学习的方法和一些最近发表的基于深度学习的方法进行了比较。获得的结果证实,在大多数情况下,U-Net 优于 Pix2Pix 模型。对于性能评估和比较评估,考虑了六个公开可用的标准数据集,即文档图像二值化竞赛 2013 (DIBCO 2013)、H-DIBCO 2014、H-DIBCO 2016、DIBCO 2017、H-DIBCO 2018 和 DIBCO 2019 . 这些架构的性能分别与各自二值化竞赛中表现最佳的方法、一些最先进的基于非深度学习的方法和一些最近发表的基于深度学习的方法进行了比较。获得的结果证实,在大多数情况下,U-Net 优于 Pix2Pix 模型。这些架构的性能分别与各自二值化竞赛中表现最佳的方法、一些最先进的基于非深度学习的方法和一些最近发表的基于深度学习的方法进行了比较。获得的结果证实,在大多数情况下,U-Net 优于 Pix2Pix 模型。这些架构的性能分别与各自二值化竞赛中表现最佳的方法、一些最先进的基于非深度学习的方法和一些最近发表的基于深度学习的方法进行了比较。获得的结果证实,在大多数情况下,U-Net 优于 Pix2Pix 模型。
更新日期:2020-12-31
down
wechat
bug