当前位置:
X-MOL 学术
›
Comput. J.
›
论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
‘Will I Regret for This Tweet?’—Twitter User’s Behavior Analysis System for Private Data Disclosure
The Computer Journal ( IF 1.4 ) Pub Date : 2020-05-09 , DOI: 10.1093/comjnl/bxaa027 R Geetha 1 , S Karthika 1 , Ponnurangam Kumaraguru 2
The Computer Journal ( IF 1.4 ) Pub Date : 2020-05-09 , DOI: 10.1093/comjnl/bxaa027 R Geetha 1 , S Karthika 1 , Ponnurangam Kumaraguru 2
Affiliation
Twitter is an extensively used micro-blogging site for publishing user’s views on recent happenings. This wide reachability of messages over large audience poses a threat, as the degree of personally identifiable information disclosed might lead to user regrets. The Tweet-Scan-Post system scans the tweets contextually for sensitive messages. The tweet repository was generated using cyber-keywords for personal, professional and health tweets. The Rules of Sensitivity and Contextuality was defined based on standards established by various national regulatory bodies. The naive sensitivity regression function uses the Bag-of-Words model built from short text messages. The imbalanced classes in dataset result in misclassification with 25% of sensitive and 75% of insensitive tweets. The system opted stacked classification to combat the problem of imbalanced classes. The system initially applied various state-of-art algorithms and predicted 26% of the tweets to be sensitive. The proposed stacked classification approach increased the overall proportion of sensitive tweets to 35%. The system contributes a vocabulary set of 201 Sensitive Privacy Keyword using the boosting approach for three tweet categories. Finally, the system formulates a sensitivity scaling called TSP’s Tweet Sensitivity Scale based on Senti-Cyber features composed of Sensitive Privacy Keywords, Cyber-keywords with Non-Sensitive Privacy Keywords and Non-Cyber-keywords to detect the degree of disclosed sensitive information.
中文翻译:
“我会为这条鸣叫感到遗憾吗?” — Twitter用户用于私人数据披露的行为分析系统
Twitter是一个广泛使用的微博客网站,用于发布用户对最近事件的看法。消息在大范围受众上的广泛可达性构成了威胁,因为公开的个人身份信息的程度可能导致用户后悔。Tweet-Scan-Post系统会在上下文中扫描推文,以查找敏感消息。该推文存储库是使用针对个人,专业和健康推文的网络关键字生成的。敏感度和上下文规则是根据各个国家监管机构制定的标准定义的。天真的敏感性回归函数使用从短文本消息构建的词袋模型。数据集中的类别不平衡会导致错误分类,其中25%的敏感推文和75%的不敏感推文。该系统选择了堆叠分类,以解决班级不平衡的问题。该系统最初应用了各种最新算法,并预测26%的推文是敏感的。提议的堆叠分类方法将敏感推文的总比例提高到35%。该系统使用针对三种tweet类别的增强方法,提供了201个“敏感隐私关键字”的词汇集。最后,系统基于Senti-Cyber功能(由敏感隐私关键字,具有非敏感隐私关键字的网络关键字和非网络关键字组成),制定了称为TSP的Tweet敏感度评分的敏感度缩放,以检测所披露敏感信息的程度。提议的堆叠分类方法将敏感推文的总体比例提高到35%。该系统使用针对三种tweet类别的增强方法,提供了201个“敏感隐私关键字”的词汇集。最后,该系统基于Senti-Cyber功能(由敏感隐私关键字,具有非敏感隐私关键字的网络关键字和非网络关键字组成),制定了称为TSP的Tweet敏感度等级的敏感度缩放,以检测所披露敏感信息的程度。提议的堆叠分类方法将敏感推文的总比例提高到35%。该系统使用针对三种tweet类别的增强方法,提供了201个“敏感隐私关键字”的词汇集。最后,该系统基于Senti-Cyber功能(由敏感隐私关键字,具有非敏感隐私关键字的网络关键字和非网络关键字组成),制定了称为TSP的Tweet敏感度等级的敏感度缩放,以检测所披露敏感信息的程度。
更新日期:2020-05-09
中文翻译:
“我会为这条鸣叫感到遗憾吗?” — Twitter用户用于私人数据披露的行为分析系统
Twitter是一个广泛使用的微博客网站,用于发布用户对最近事件的看法。消息在大范围受众上的广泛可达性构成了威胁,因为公开的个人身份信息的程度可能导致用户后悔。Tweet-Scan-Post系统会在上下文中扫描推文,以查找敏感消息。该推文存储库是使用针对个人,专业和健康推文的网络关键字生成的。敏感度和上下文规则是根据各个国家监管机构制定的标准定义的。天真的敏感性回归函数使用从短文本消息构建的词袋模型。数据集中的类别不平衡会导致错误分类,其中25%的敏感推文和75%的不敏感推文。该系统选择了堆叠分类,以解决班级不平衡的问题。该系统最初应用了各种最新算法,并预测26%的推文是敏感的。提议的堆叠分类方法将敏感推文的总比例提高到35%。该系统使用针对三种tweet类别的增强方法,提供了201个“敏感隐私关键字”的词汇集。最后,系统基于Senti-Cyber功能(由敏感隐私关键字,具有非敏感隐私关键字的网络关键字和非网络关键字组成),制定了称为TSP的Tweet敏感度评分的敏感度缩放,以检测所披露敏感信息的程度。提议的堆叠分类方法将敏感推文的总体比例提高到35%。该系统使用针对三种tweet类别的增强方法,提供了201个“敏感隐私关键字”的词汇集。最后,该系统基于Senti-Cyber功能(由敏感隐私关键字,具有非敏感隐私关键字的网络关键字和非网络关键字组成),制定了称为TSP的Tweet敏感度等级的敏感度缩放,以检测所披露敏感信息的程度。提议的堆叠分类方法将敏感推文的总比例提高到35%。该系统使用针对三种tweet类别的增强方法,提供了201个“敏感隐私关键字”的词汇集。最后,该系统基于Senti-Cyber功能(由敏感隐私关键字,具有非敏感隐私关键字的网络关键字和非网络关键字组成),制定了称为TSP的Tweet敏感度等级的敏感度缩放,以检测所披露敏感信息的程度。