当前位置: X-MOL 学术J. Inf. Sci. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Binary background model with geometric mean for author-independent authorship verification
Journal of Information Science ( IF 1.8 ) Pub Date : 2021-05-11 , DOI: 10.1177/01655515211007710
Pelin Canbay 1 , Ebru A Sezer 2 , Hayri Sever 3
Affiliation  

Authorship verification (AV) is one of the main problems of authorship analysis and digital text forensics. The classical AV problem is to decide whether or not a particular author wrote the document in question. However, if there is one and relatively short document as the author’s known document, the verification problem becomes more difficult than the classical AV and needs a generalised solution. Regarding to decide AV of the given two unlabeled documents (2D-AV), we proposed a system that provides an author-independent solution with the help of a Binary Background Model (BBM). The BBM is a supervised model that provides an informative background to distinguish document pairs written by the same or different authors. To evaluate the document pairs in one representation, we also proposed a new, simple and efficient document combination method based on the geometric mean of the stylometric features. We tested the performance of the proposed system for both author-dependent and author-independent AV cases. In addition, we introduced a new, well-defined, manually labelled Turkish blog corpus to be used in subsequent studies about authorship analysis. Using a publicly available English blog corpus for generating the BBM, the proposed system demonstrated an accuracy of over 90% from both trained and unseen authors’ test sets. Furthermore, the proposed combination method and the system using the BBM with the English blog corpus were also evaluated with other genres, which were used in the international PAN AV competitions, and achieved promising results.



中文翻译:

具有几何平均值的二进制背景模型,用于独立于作者的作者身份验证

作者身份验证(AV)是作者身份分析和数字文本取证的主要问题之一。经典的AV问题是确定特定作者是否撰写了相关文档。但是,如果有一个文档和相对较短的文档作为作者的已知文档,则验证问题将比传统的AV更困难,并且需要一种通用的解决方案。关于确定给定的两个未标记文档的AV(2D-AV),我们提出了一个系统,该系统在二进制背景模型(BBM)的帮助下提供了独立于作者的解决方案。BBM是一种受监督的模型,可提供信息背景,以区分由相同或不同作者撰写的文档对。为了以一种表示形式评估文档对,我们还提出了一种新的方法,基于几何特征的几何平均值的简单有效的文档组合方法。我们针对与作者相关和与作者无关的AV案例测试了所提出系统的性能。此外,我们引入了一个新的,定义明确的,手动标记的土耳其博客语料库,该语料库将用于以后的关于作者身份分析的研究中。通过使用公开可用的英语博客语料库生成BBM,该提议的系统从受过训练和看不见的作者的测试集中证明了90%以上的准确性。此外,提出的结合方法和将BBM与英语博客语料库结合使用的系统也与其他类型的游戏一起进行了评估,这些形式已在国际PAN AV比赛中使用,并取得了可喜的成绩。我们针对与作者相关和与作者无关的AV案例测试了所提出系统的性能。此外,我们引入了一个新的,定义明确的,手动标记的土耳其博客语料库,该语料库将用于以后的关于作者身份分析的研究中。通过使用公开可用的英语博客语料库生成BBM,该提议的系统从受过训练和看不见的作者的测试集中证明了90%以上的准确性。此外,提出的结合方法和将BBM与英语博客语料库结合使用的系统也与其他类型的游戏一起进行了评估,这些形式已在国际PAN AV比赛中使用,并取得了可喜的成绩。我们针对与作者相关和与作者无关的AV案例测试了所提出系统的性能。此外,我们引入了一个新的,定义明确的,手动标记的土耳其博客语料库,该语料库将用于以后的关于作者身份分析的研究中。通过使用公开可用的英语博客语料库生成BBM,该提议的系统从受过训练和看不见的作者的测试集中证明了90%以上的准确性。此外,提出的结合方法和将BBM与英语博客语料库结合使用的系统也与其他类型的游戏一起进行了评估,这些形式已在国际PAN AV比赛中使用,并取得了可喜的成绩。手动标记的土耳其语博客语料库,可用于有关作者身份分析的后续研究。通过使用公开可用的英语博客语料库生成BBM,该提议的系统从受过训练和看不见的作者的测试集中证明了90%以上的准确性。此外,提出的结合方法和将BBM与英语博客语料库结合使用的系统也与其他类型的游戏一起进行了评估,这些形式已在国际PAN AV比赛中使用,并取得了可喜的成绩。手动标记的土耳其语博客语料库,可用于有关作者身份分析的后续研究。通过使用公开可用的英语博客语料库生成BBM,该提议的系统从受过训练和看不见的作者的测试集中证明了90%以上的准确性。此外,提出的结合方法和将BBM与英语博客语料库结合使用的系统也与其他类型的游戏一起进行了评估,这些形式已在国际PAN AV比赛中使用,并取得了可喜的成绩。

更新日期:2021-05-11
down
wechat
bug