当前位置: X-MOL 学术J. Inf. Sci. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Clickbait detection using multiple categorisation techniques
Journal of Information Science ( IF 1.8 ) Pub Date : 2019-09-16 , DOI: 10.1177/0165551519871822
Abinash Pujahari 1 , Dilip Singh Sisodia 1
Affiliation  

Clickbaits are online articles with deliberately designed misleading titles for luring more and more readers to open the intended web page. Clickbaits are used to tempt visitors to click on a particular link either to monetise the landing page or to spread the false news for sensationalisation. The presence of clickbaits on any news aggregator portal may lead to unpleasant experience to readers. Automatic detection of clickbait headlines from news headlines has been a challenging issue for the machine learning community. A lot of methods have been proposed for preventing clickbait articles in recent past. However, the recent techniques available in detecting clickbaits are not much robust. This article proposes a hybrid categorisation technique for separating clickbait and non-clickbait articles by integrating different features, sentence structure and clustering. During preliminary categorisation, the headlines are separated using 11 features. After that, the headlines are recategorised using sentence formality and syntactic similarity measures. In the last phase, the headlines are again recategorised by applying clustering using word vector similarity based on t-stochastic neighbourhood embedding (t-SNE) approach. After categorisation of these headlines, machine learning models are applied to the dataset to evaluate machine learning algorithms. The obtained experimental results indicate that the proposed hybrid model is more robust, reliable and efficient than any individual categorisation techniques for the dataset we have used.

中文翻译:

使用多种分类技术的点击诱饵检测

Clickbait 是带有故意设计的误导性标题的在线文章,以吸引越来越多的读者打开预期的网页。Clickbait 用于诱使访问者单击特定链接以通过登录页面获利或传播虚假新闻以引起轰动。任何新闻聚合门户网站上出现的点击诱饵都可能给读者带来不愉快的体验。从新闻标题中自动检测点击诱饵标题一直是机器学习社区的一个具​​有挑战性的问题。最近已经提出了很多方法来防止点击诱饵文章。然而,最近可用于检测点击诱饵的技术并不是很可靠。本文提出了一种混合分类技术,通过集成不同的特征来分离点击诱饵和非点击诱饵文章,句子结构和聚类。在初步分类期间,标题使用 11 个特征分开。之后,使用句子形式和句法相似性度量对标题进行重新分类。在最后一个阶段,通过使用基于 t 随机邻域嵌入 (t-SNE) 方法的词向量相似性进行聚类,再次对标题进行重新分类。在对这些标题进行分类后,将机器学习模型应用于数据集以评估机器学习算法。获得的实验结果表明,所提出的混合模型比我们使用的数据集的任何单独分类技术都更加稳健、可靠和高效。标题使用句子形式和句法相似性度量重新分类。在最后一个阶段,通过使用基于 t 随机邻域嵌入 (t-SNE) 方法的词向量相似性进行聚类,再次对标题进行重新分类。在对这些标题进行分类后,将机器学习模型应用于数据集以评估机器学习算法。获得的实验结果表明,所提出的混合模型比我们使用的数据集的任何单独分类技术都更加稳健、可靠和高效。标题使用句子形式和句法相似性度量重新分类。在最后一个阶段,通过使用基于 t 随机邻域嵌入 (t-SNE) 方法的词向量相似性进行聚类,再次对标题进行重新分类。在对这些标题进行分类后,将机器学习模型应用于数据集以评估机器学习算法。获得的实验结果表明,所提出的混合模型比我们使用的数据集的任何单独分类技术都更加稳健、可靠和高效。机器学习模型应用于数据集以评估机器学习算法。获得的实验结果表明,所提出的混合模型比我们使用的数据集的任何单独分类技术都更加稳健、可靠和高效。机器学习模型应用于数据集以评估机器学习算法。获得的实验结果表明,所提出的混合模型比我们使用的数据集的任何单独分类技术都更加稳健、可靠和高效。
更新日期:2019-09-16
down
wechat
bug