当前位置: X-MOL 学术Concurr. Comput. Pract. Exp. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Abstractive text summarization using deep learning with a new Turkish summarization benchmark dataset
Concurrency and Computation: Practice and Experience ( IF 2 ) Pub Date : 2021-07-11 , DOI: 10.1002/cpe.6482
Fatih Ertam 1 , Galip Aydin 2
Affiliation  

Exponential increase in the amount of textual data made available on the Internet results in new challenges in terms of accessing information accurately and quickly. Text summarization can be defined as reducing the dimensions of the expressions to be summarized without spoiling the meaning. Summarization can be performed as extractive and abstractive or using both together. In this study, we focus on abstractive summarization which can produce more human-like summarization results. For the study we created a Turkish news summarization benchmark dataset from various news agency web portals by crawling the news title, short news, news content, and keywords for the last 5 years. The dataset is made publicly available for researchers. The deep learning network training was carried out by using the news headlines and short news contents from the prepared dataset and then the network was expected to create the news headline as the short news summary. To evaluate the performance of this study, Rouge-1, Rouge-2, and Rouge-L were compared using precision, sensitivity and F1 measure scores. Performance values for the study were presented for each sentence as well as by averaging the results for 50 randomly selected sentences. The F1 Measure values are 0.4317, 0.2194, and 0.4334 for Rouge-1, Rouge-2, and Rouge-L respectively. Performance results show that the approach is promising for Turkish text summarization studies and the prepared dataset will add value to the literature.

中文翻译:

使用深度学习和新的土耳其语摘要基准数据集进行抽象文本摘要

Internet 上提供的文本数据量呈指数级增长,导致在准确、快速地访问信息方面面临新的挑战。文本摘要可以定义为在不破坏含义的情况下减少要概括的表达的维度。总结可以以提取和抽象的形式执行,也可以同时使用两者。在这项研究中,我们专注于抽象摘要,它可以产生更人性化的摘要结果。在这项研究中,我们通过抓取过去 5 年的新闻标题、短新闻、新闻内容和关键字,从各种新闻机构门户网站创建了土耳其新闻摘要基准数据集。该数据集向研究人员公开。使用准备好的数据集中的新闻标题和短新闻内容进行深度学习网络训练,然后期望网络将新闻标题创建为短新闻摘要。为了评估这项研究的性能,使用精度、灵敏度和 F1 测量分数比较了 Rouge-1、Rouge-2 和 Rouge-L。为每个句子提供了研究的性能值,并通过平均 50 个随机选择的句子的结果。Rouge-1、Rouge-2 和 Rouge-L 的 F1 测量值分别为 0.4317、0.2194 和 0.4334。性能结果表明,该方法对于土耳其语文本摘要研究很有前景,并且准备好的数据集将为文献增加价值。为了评估这项研究的性能,使用精度、灵敏度和 F1 测量分数比较了 Rouge-1、Rouge-2 和 Rouge-L。为每个句子提供了研究的性能值,并通过平均 50 个随机选择的句子的结果。Rouge-1、Rouge-2 和 Rouge-L 的 F1 测量值分别为 0.4317、0.2194 和 0.4334。性能结果表明,该方法对于土耳其语文本摘要研究很有前景,并且准备好的数据集将为文献增加价值。为了评估这项研究的性能,使用精度、灵敏度和 F1 测量分数比较了 Rouge-1、Rouge-2 和 Rouge-L。为每个句子提供了研究的性能值,并通过平均 50 个随机选择的句子的结果。Rouge-1、Rouge-2 和 Rouge-L 的 F1 测量值分别为 0.4317、0.2194 和 0.4334。性能结果表明,该方法对于土耳其语文本摘要研究很有前景,并且准备好的数据集将为文献增加价值。Rouge-1、Rouge-2 和 Rouge-L 分别为 4334。性能结果表明,该方法对于土耳其语文本摘要研究很有前景,并且准备好的数据集将为文献增加价值。Rouge-1、Rouge-2 和 Rouge-L 分别为 4334。性能结果表明,该方法对于土耳其语文本摘要研究很有前景,并且准备好的数据集将为文献增加价值。
更新日期:2021-07-11
down
wechat
bug