当前位置: X-MOL 学术Aslib Journal of Information Management › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Toward the optimized crowdsourcing strategy for OCR post-correction
Aslib Journal of Information Management ( IF 2.6 ) Pub Date : 2019-12-09 , DOI: 10.1108/ajim-07-2019-0189
Omri Suissa , Avshalom Elmalech , Maayan Zhitomirsky-Geffet

Digitization of historical documents is a challenging task in many digital humanities projects. A popular approach for digitization is to scan the documents into images, and then convert images into text using optical character recognition (OCR) algorithms. However, the outcome of OCR processing of historical documents is usually inaccurate and requires post-processing error correction. The purpose of this paper is to investigate how crowdsourcing can be utilized to correct OCR errors in historical text collections, and which crowdsourcing methodology is the most effective in different scenarios and for various research objectives.,A series of experiments with different micro-task’s structures and text lengths were conducted with 753 workers on the Amazon’s Mechanical Turk platform. The workers had to fix OCR errors in a selected historical text. To analyze the results, new accuracy and efficiency measures were devised.,The analysis suggests that in terms of accuracy, the optimal text length is medium (paragraph-size) and the optimal structure of the experiment is two phase with a scanned image. In terms of efficiency, the best results were obtained when using longer text in the single-stage structure with no image.,The study provides practical recommendations to researchers on how to build the optimal crowdsourcing task for OCR post-correction. The developed methodology can also be utilized to create golden standard historical texts for automatic OCR post-correction.,This is the first attempt to systematically investigate the influence of various factors on crowdsourcing-based OCR post-correction and propose an optimal strategy for this process.

中文翻译:

寻求用于OCR后校正的优化众包策略

在许多数字人文项目中,历史文档的数字化是一项艰巨的任务。一种流行的数字化方法是将文档扫描为图像,然后使用光学字符识别(OCR)算法将图像转换为文本。但是,OCR处理历史文档的结果通常是不准确的,需要后期处理错误纠正。本文的目的是研究如何利用众包来纠正历史文本集中的OCR错误,以及哪种众包方法在不同情况下和针对不同的研究目标是最有效的。具有不同微任务结构的一系列实验在Amazon的Mechanical Turk平台上对753名工人进行了文本和文本长度的计算。工人必须在选定的历史文本中修复OCR错误。为了分析结果,设计了新的准确性和效率措施。分析表明,就准确性而言,最佳文本长度为中等(段落大小),实验的最佳结构为两阶段,带有扫描图像。在效率方面,当在没有图像的单阶段结构中使用较长的文本时,可获得最佳结果。该研究为研究人员提供了有关如何构建用于OCR后校正的最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。分析表明,在准确性方面,最佳文本长度为中等(段落大小),实验的最佳结构为扫描图像的两个阶段。在效率方面,当在没有图像的单阶段结构中使用较长的文本时,可获得最佳结果。该研究为研究人员提供了有关如何构建用于OCR后校正的最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。分析表明,就准确性而言,最佳文本长度为中等(段落大小),实验的最佳结构为两阶段,并带有扫描图像。在效率方面,当在没有图像的单阶段结构中使用较长的文本时,可获得最佳结果。该研究为研究人员提供了有关如何构建用于OCR后校正的最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。分析表明,就准确性而言,最佳文本长度为中等(段落大小),并且实验的最佳结构为扫描图像的两个阶段。在效率方面,当在没有图像的单阶段结构中使用较长的文本时,可获得最佳结果。该研究为研究人员提供了有关如何构建用于OCR后校正的最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。分析表明,就准确性而言,最佳文本长度为中等(段落大小),并且实验的最佳结构为扫描图像的两个阶段。在效率方面,当在没有图像的单阶段结构中使用较长的文本时,可获得最佳结果。该研究为研究人员提供了有关如何构建用于OCR后校正的最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。最佳文本长度为中等(段落大小),并且实验的最佳结构为两阶段扫描图像。在效率方面,当在没有图像的单阶段结构中使用较长的文本时,可获得最佳结果。该研究为研究人员提供了有关如何构建用于OCR后校正的最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。最佳文本长度为中等(段落大小),并且实验的最佳结构为扫描图像的两个阶段。在效率方面,当在没有图像的单阶段结构中使用较长的文本时,可获得最佳结果。该研究为研究人员提供了有关如何构建用于OCR后校正的最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。该研究为研究人员提供了有关如何为OCR后校正建立最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。该研究为研究人员提供了有关如何为OCR后校正建立最佳众包任务的实用建议。开发的方法还可以用于创建自动OCR后校正的黄金标准历史文本。这是系统地研究各种因素对基于众包的OCR后校正的影响并为此过程提出最佳策略的首次尝试。 。
更新日期:2019-12-09
down
wechat
bug