当前位置: X-MOL 学术Data Min. Knowl. Discov. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
DeepTable: a permutation invariant neural network for table orientation classification
Data Mining and Knowledge Discovery ( IF 4.8 ) Pub Date : 2020-09-08 , DOI: 10.1007/s10618-020-00711-x
Maryam Habibi , Johannes Starlinger , Ulf Leser

Tables are a common way to present information in an intuitive and concise manner. They are used extensively in media such as scientific articles or web pages. Automatically analyzing the content of tables bears special challenges. One of the most basic tasks is determination of the orientation of a table: In column tables, columns represent one entity with the different attribute values present in the different rows; row tables are vice versa, and matrix tables give information on pairs of entities. In this paper, we address the problem of classifying a given table into one of the three layouts horizontal (for row tables), vertical (for column tables), and matrix. We describe DeepTable, a novel method based on deep neural networks designed for learning from sets. Contrary to previous state-of-the-art methods, this basis makes DeepTable invariant to the permutation of rows or columns, which is a highly desirable property as in most tables the order of rows and columns does not carry specific information. We evaluate our method using a silver standard corpus of 5500 tables extracted from biomedical articles where the layout was determined heuristically. DeepTable outperforms previous methods in both precision and recall on our corpus. In a second evaluation, we manually labeled a corpus of 300 tables and were able to confirm DeepTable to reach superior performance in the table layout classification task. The codes and resources introduced here are available at https://github.com/Marhabibi/DeepTable.



中文翻译:

DeepTable:用于表方向分类的置换不变神经网络

表格是一种以直观简洁的方式呈现信息的常用方法。它们广泛用于科学文章或网页等媒体中。自动分析表的内容面临着特殊的挑战。最基本的任务之一是确定表的方向:在列表中,列表示一个实体,该实体在不同的行中具有不同的属性值;行表反之亦然,矩阵表提供有关实体对的信息。在本文中,我们解决了将给定表分类为水平(对于行表),垂直(对于列表)和矩阵这三种布局之一的问题。我们描述了DeepTable,这是一种基于深度神经网络的新颖方法,旨在从集合中学习。与以前的最新方法相反,此基础使DeepTable不变于行或列的排列,这是非常可取的属性,因为在大多数表中,行和列的顺序不携带特定信息。我们使用从生物医学文章中提取的5500张表格的银标准语料库来评估我们的方法,该生物医学文章是通过启发式方式确定布局的。在我们的语料库上,DeepTable在精度和召回率方面均优于以前的方法。在第二次评估中,我们手动标记了300个表的主体,并能够确认DeepTable在表布局分类任务中达到出色的性能。此处介绍的代码和资源可从https://github.com/Marhabibi/DeepTable获得。这是非常可取的属性,因为在大多数表中,行和列的顺序不携带特定信息。我们使用从生物医学文章中提取的5500张表格的银标准语料库评估了我们的方法,该生物医学文章是通过启发式方式确定布局的。在我们的语料库上,DeepTable在精度和召回率方面均优于以前的方法。在第二次评估中,我们手动标记了300个表的主体,并能够确认DeepTable在表布局分类任务中达到出色的性能。此处介绍的代码和资源可从https://github.com/Marhabibi/DeepTable获得。这是非常可取的属性,因为在大多数表中,行和列的顺序不携带特定信息。我们使用从生物医学文章中提取的5500张表格的银标准语料库来评估我们的方法,该生物医学文章是通过启发式方式确定布局的。在我们的语料库上,DeepTable在精度和召回率方面均优于以前的方法。在第二次评估中,我们手动标记了300个表的主体,并能够确认DeepTable在表布局分类任务中达到出色的性能。此处介绍的代码和资源可从https://github.com/Marhabibi/DeepTable获得。在我们的语料库上,DeepTable在精度和召回率方面均优于以前的方法。在第二次评估中,我们手动标记了300个表的主体,并能够确认DeepTable在表布局分类任务中达到出色的性能。此处介绍的代码和资源可从https://github.com/Marhabibi/DeepTable获得。在我们的语料库上,DeepTable在精度和召回率方面均优于以前的方法。在第二次评估中,我们手动标记了300个表的主体,并能够确认DeepTable在表布局分类任务中达到出色的性能。此处介绍的代码和资源可从https://github.com/Marhabibi/DeepTable获得。

更新日期:2020-09-08
down
wechat
bug