当前位置: X-MOL 学术Math. Probl. Eng. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
使用基于新颖术语加权方案的改进的TF-IDF对Internet媒体报告进行文本分类
Mathematical Problems in Engineering Pub Date : 2021-03-05 , DOI: 10.1155/2021/6619088
Zhiying Jiang 1, 2 , Bo Gao 1, 2 , Yanlin He 1, 2 , Yongming Han 1, 2 , Paul Doyle 3 , Qunxiong Zhu 1, 2
Affiliation  

随着互联网技术的飞速发展,可以获得大量的互联网文本数据。文本分类(TC)技术在处理大量文本数据中起着非常重要的作用,但是分类的准确性直接受TC中术语加权的性能影响。由于信息检索(IR)的原始设计,术语频率反文档频率(TF-IDF)对于TC而言不够有效,尤其是对于处理Internet媒体报告中分布不均衡的文本数据而言。因此,特定项的DF值与所有DF的平均值之间的方差提出了文档频率方差(ADF),以增强处理分布不均衡的文本数据的能力。然后,通过建议的ADF修改普通的TF-IDF,以TF-IADF,TF-IADF +,TF-IADF规范和TF-IADF +规范四种不同方式处理不平衡文本集合。结果,可以为互联网媒体报道的TC任务建立有效的模型。已经进行了一系列仿真,以评估所提出方法的性能。与最新的分类算法TF-IDF相比,仿真结果验证了所提方法的有效性和可行性。



"点击查看英文标题和摘要"

更新日期:2021-03-05
down
wechat
bug