当前位置:
X-MOL 学术
›
Softw. Pract. Exp.
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
On the synthesis of metadata tags for HTML files
Software: Practice and Experience ( IF 3.5 ) Pub Date : 2020-09-03 , DOI: 10.1002/spe.2886 Patricia Jiménez 1 , Juan C. Roldán 1 , Fernando O. Gallego 1 , Rafael Corchuelo 1
Software: Practice and Experience ( IF 3.5 ) Pub Date : 2020-09-03 , DOI: 10.1002/spe.2886 Patricia Jiménez 1 , Juan C. Roldán 1 , Fernando O. Gallego 1 , Rafael Corchuelo 1
Affiliation
RDFa, JSON‐LD, Microdata, and Microformats allow to endow the data in HTML files with metadata tags that help software agents understand them. Unluckily, there are many HTML files that do not have any metadata tags, which has motivated many authors to work on proposals to synthesize them. But they have some problems: the authors either provide an overall picture of their designs without too many details on the techniques behind the scenes or focus on the techniques but do not describe the design of the software systems that support them; many of them cannot deal with data that are encoded using semistructured formats like forms, listings, or tables; and the few proposals that can work on tables can deal with horizontal listings only. In this article, we describe the design of a system that overcomes the previous limitations using a novel embedding approach that has proven to outperform four state‐of‐the‐art techniques on a repository with randomly selected HTML files from 40 different sites. According to our experimental analysis, our proposal can achieve an F1 score that outperforms the others by 10.14%; this difference was confirmed to be statistically significant at the standard confidence level.
中文翻译:
关于 HTML 文件元数据标签的合成
RDFa、JSON-LD、微数据和微格式允许为 HTML 文件中的数据赋予元数据标签,帮助软件代理理解它们。不幸的是,有许多 HTML 文件没有任何元数据标签,这促使许多作者致力于合成它们的提案。但是他们有一些问题:作者要么提供了他们设计的整体图,而没有太多关于幕后技术的细节,要么专注于技术但没有描述支持它们的软件系统的设计;他们中的许多人无法处理使用表单、列表或表格等半结构化格式编码的数据;可以在表格上工作的少数提案只能处理水平列表。在本文中,我们描述了一个系统的设计,该系统使用一种新颖的嵌入方法克服了先前的限制,该方法已被证明在具有来自 40 个不同站点的随机选择的 HTML 文件的存储库上优于四种最先进的技术。根据我们的实验分析,我们的提案可以达到比其他提案高 10.14% 的 F1 分数;这一差异被证实在标准置信水平上具有统计学意义。
更新日期:2020-09-03
中文翻译:
关于 HTML 文件元数据标签的合成
RDFa、JSON-LD、微数据和微格式允许为 HTML 文件中的数据赋予元数据标签,帮助软件代理理解它们。不幸的是,有许多 HTML 文件没有任何元数据标签,这促使许多作者致力于合成它们的提案。但是他们有一些问题:作者要么提供了他们设计的整体图,而没有太多关于幕后技术的细节,要么专注于技术但没有描述支持它们的软件系统的设计;他们中的许多人无法处理使用表单、列表或表格等半结构化格式编码的数据;可以在表格上工作的少数提案只能处理水平列表。在本文中,我们描述了一个系统的设计,该系统使用一种新颖的嵌入方法克服了先前的限制,该方法已被证明在具有来自 40 个不同站点的随机选择的 HTML 文件的存储库上优于四种最先进的技术。根据我们的实验分析,我们的提案可以达到比其他提案高 10.14% 的 F1 分数;这一差异被证实在标准置信水平上具有统计学意义。