当前位置: X-MOL 学术ACM Trans. Web › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
What Web Template Extractor Should I Use? A Benchmarking and Comparison for Five Template Extractors
ACM Transactions on the Web ( IF 3.5 ) Pub Date : 2019-04-02 , DOI: 10.1145/3316810
Julián Alarte 1 , Josep Silva 1 , Salvador Tamarit 2
Affiliation  

A Web template is a resource that implements the structure and format of a website, making it ready for plugging content into already formatted and prepared pages. For this reason, templates are one of the main development resources for website engineers, because they increase productivity. Templates are also useful for the final user, because they provide uniformity and a common look and feel for all webpages. However, from the point of view of crawlers and indexers, templates are an important problem, because templates usually contain irrelevant information, such as advertisements, menus, and banners. Processing and storing this information leads to a waste of resources (storage space, bandwidth, etc.). It has been measured that templates represent between 40% and 50% of data on the Web. Therefore, identifying templates is essential for indexing tasks. There exist many techniques and tools for template extraction, but, unfortunately, it is not clear at all which template extractor should a user/system use, because they have never been compared, and because they present different (complementary) features such as precision, recall, and efficiency. In this work, we compare the most advanced template extractors. We implemented and evaluated five of the most advanced template extractors in the literature. To compare all of them, we implemented a workbench, where they have been integrated and evaluated. Thanks to this workbench, we can provide a fair empirical comparison of all methods using the same benchmarks, technology, implementation language, and evaluation criteria.

中文翻译:

我应该使用什么 Web 模板提取器?五个模板提取器的基准测试和比较

Web 模板是一种实现网站结构和格式的资源,可以将内容插入到已经格式化和准备好的页面中。出于这个原因,模板是网站工程师的主要开发资源之一,因为它们提高了生产力。模板对最终用户也很有用,因为它们为所有网页提供了统一的外观和感觉。但是,从爬虫和索引器的角度来看,模板是一个重要的问题,因为模板通常包含不相关的信息,例如广告、菜单和横幅。处理和存储这些信息会导致资源(存储空间、带宽等)的浪费。据测量,模板代表了 Web 上 40% 到 50% 的数据。所以,识别模板对于索引任务至关重要。存在许多用于模板提取的技术和工具,但不幸的是,根本不清楚用户/系统应该使用哪个模板提取器,因为它们从未被比较过,并且因为它们呈现出不同的(互补的)特征,例如精度,回忆和效率。在这项工作中,我们比较了最先进的模板提取器。我们实施并评估了文献中最先进的五种模板提取器。为了比较所有这些,我们实施了一个工作台,在其中对它们进行了集成和评估。多亏了这个工作台,我们可以使用相同的基准、技术、实现语言和评估标准对所有方法进行公平的经验比较。不幸的是,根本不清楚用户/系统应该使用哪个模板提取器,因为它们从未被比较过,并且因为它们呈现出不同的(互补)特征,例如精确度、召回率和效率。在这项工作中,我们比较了最先进的模板提取器。我们实施并评估了文献中最先进的五种模板提取器。为了比较所有这些,我们实施了一个工作台,在其中对它们进行了集成和评估。多亏了这个工作台,我们可以使用相同的基准、技术、实现语言和评估标准对所有方法进行公平的经验比较。不幸的是,根本不清楚用户/系统应该使用哪个模板提取器,因为它们从未被比较过,并且因为它们呈现出不同的(互补)特征,例如精确度、召回率和效率。在这项工作中,我们比较了最先进的模板提取器。我们实施并评估了文献中最先进的五种模板提取器。为了比较所有这些,我们实施了一个工作台,在其中对它们进行了集成和评估。多亏了这个工作台,我们可以使用相同的基准、技术、实现语言和评估标准对所有方法进行公平的经验比较。并且因为它们呈现出不同的(互补的)特征,例如精确度、召回率和效率。在这项工作中,我们比较了最先进的模板提取器。我们实施并评估了文献中最先进的五种模板提取器。为了比较所有这些,我们实施了一个工作台,在其中对它们进行了集成和评估。多亏了这个工作台,我们可以使用相同的基准、技术、实现语言和评估标准对所有方法进行公平的经验比较。并且因为它们呈现出不同的(互补的)特征,例如精确度、召回率和效率。在这项工作中,我们比较了最先进的模板提取器。我们实施并评估了文献中最先进的五种模板提取器。为了比较所有这些,我们实施了一个工作台,在其中对它们进行了集成和评估。多亏了这个工作台,我们可以使用相同的基准、技术、实现语言和评估标准对所有方法进行公平的经验比较。
更新日期:2019-04-02
down
wechat
bug