当前位置: X-MOL 学术Int. J. Doc. Anal. Recognit. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Combination of deep neural networks and logical rules for record segmentation in historical handwritten registers using few examples
International Journal on Document Analysis and Recognition ( IF 1.8 ) Pub Date : 2021-03-03 , DOI: 10.1007/s10032-021-00362-8
Solène Tarride , Aurélie Lemaitre , Bertrand Coüasnon , Sophie Tardivel

This work focuses on the layout analysis of historical handwritten registers, in which local religious ceremonies were recorded. The aim of this work is to delimit each record using few available training data. To this end, two approaches are proposed. Firstly, three state-of-the-art object detection networks are explored and compared. Further experiments are then conducted on Mask R-CNN, as it yields the best performance. Secondly, we introduce and investigate Deep&Syntax, a hybrid system that takes advantages of recurrent patterns to delimit each record, by combining u-shaped networks and logical rules. Finally, these two approaches are evaluated on 3708 French records (sixteenth–eighteenth centuries), as well as on the Esposalles public database, containing 253 Spanish records (seventeenth century). While both systems perform well on homogeneous documents, we observe a significant drop in performance with Mask R-CNN on more challenging documents, especially when trained on a small, non-representative subset. By contrast, Deep&Syntax relies on steady patterns and is therefore able to process a wider range of documents with less training data. When both systems are trained on 120 documents, Deep&Syntax produces 15% more match configurations and reduces the ZoneMap surface error metric by 30%. It also outperforms Mask R-CNN when trained on a database three times smaller. As Deep&Syntax generalizes better, we believe it can be used for massive parish register processing, as collecting and annotating a sufficiently large and representative set of training data is not always achievable.



中文翻译:

结合深度神经网络和逻辑规则,使用几个示例对历史手写寄存器中的记录进行分段

这项工作着重于对历史手写记录的布局分析,其中记录了当地的宗教仪式。这项工作的目的是使用很少的可用训练数据来划定每个记录。为此,提出了两种方法。首先,探索并比较了三个最先进的物体检测网络。然后,在Mask R-CNN上进行进一步的实验,因为它可以产生最佳性能。其次,我们介绍并研究Deep&Syntax,这是一个混合系统,它通过结合u形网络和逻辑规则,利用循环模式来界定每个记录。最后,在3708份法国记录(16至18世纪)以及包含253份西班牙记录(17世纪)的Esposalles公共数据库中对这两种方法进行了评估。尽管两个系统在同类文档上均表现良好,但我们发现在更具挑战性的文档上使用Mask R-CNN的性能明显下降,尤其是在较小的非代表性子集上进行训练时。相比之下,Deep&Syntax依靠稳定的模式,因此能够以较少的培训数据处理更广泛的文档。当两个系统都接受了120个文档的培训时,Deep&Syntax可以将匹配配置提高15%,并将ZoneMap表面误差度量降低30%。在数据库上进行三倍小训练后,它的性能也优于Mask R-CNN。随着Deep&Syntax的推广更好,我们认为它可用于大规模教区登记处理,因为收集和注释足够大且具代表性的训练数据集并不总是可以实现的。我们发现,在更具挑战性的文档上使用Mask R-CNN的性能显着下降,尤其是在较小的非代表性子集上进行训练时。相比之下,Deep&Syntax依靠稳定的模式,因此能够以较少的培训数据处理更广泛的文档。当两个系统都接受了120个文档的培训时,Deep&Syntax可以将匹配配置提高15%,并将ZoneMap表面误差度量降低30%。在数据库上进行三倍小训练后,它的性能也优于Mask R-CNN。随着Deep&Syntax的推广更好,我们认为它可用于大规模教区登记处理,因为收集和注释足够大且具代表性的训练数据集并不总是可以实现的。我们发现,在更具挑战性的文档上使用Mask R-CNN的性能显着下降,尤其是在较小的非代表性子集上进行训练时。相比之下,Deep&Syntax依靠稳定的模式,因此能够以较少的培训数据处理更广泛的文档。当两个系统都接受了120个文档的培训时,Deep&Syntax可以将匹配配置提高15%,并将ZoneMap表面误差度量降低30%。在数据库上进行三倍小训练后,它的性能也优于Mask R-CNN。随着Deep&Syntax的推广更好,我们认为它可用于大规模教区登记处理,因为收集和注释足够大且具代表性的训练数据集并不总是可以实现的。非代表性子集。相比之下,Deep&Syntax依靠稳定的模式,因此能够以较少的培训数据处理更广泛的文档。当两个系统都接受了120个文档的培训时,Deep&Syntax可以将匹配配置增加15%,并将ZoneMap表面误差度量降低30%。在数据库上进行三倍小训练后,它的性能也优于Mask R-CNN。随着Deep&Syntax的推广更好,我们认为它可用于大规模教区登记处理,因为收集和注释足够大且具代表性的训练数据集并不总是可以实现的。非代表性子集。相比之下,Deep&Syntax依靠稳定的模式,因此能够以较少的培训数据处理更广泛的文档。当两个系统都接受了120个文档的培训时,Deep&Syntax可以将匹配配置提高15%,并将ZoneMap表面误差度量降低30%。在数据库上进行三倍小训练后,它的性能也优于Mask R-CNN。随着Deep&Syntax的推广更好,我们认为它可用于大规模教区登记处理,因为收集和注释足够大且具代表性的训练数据集并不总是可以实现的。语法可将匹配配置增加15%,并将ZoneMap表面误差度量降低30%。在数据库上进行三倍小训练后,它的性能也优于Mask R-CNN。随着Deep&Syntax的推广更好,我们认为它可用于大规模教区登记处理,因为收集和注释足够大且具代表性的训练数据集并不总是可以实现的。语法可将匹配配置增加15%,并将ZoneMap表面误差度量减少30%。在数据库上进行三倍小训练后,它的性能也优于Mask R-CNN。随着Deep&Syntax的推广更好,我们认为它可用于大规模教区登记处理,因为收集和注释足够大且具代表性的训练数据集并不总是可以实现的。

更新日期:2021-03-04
down
wechat
bug