首站-论文投稿智能助手
典型文献
基于TF-IDF算法的文本量化方法及作者识别应用
文献摘要:
作者识别任务旨在找到匿名文本的作者,在互联网蓬勃发展的时代,准确识别出匿名文本的作者对维护网络环境的安全有着积极作用.在该任务中,文本内容的量化非常关键,能直接影响作者识别的准确率.基于词频-逆文档频率(TF-IDF)算法,文章提出了一种文本量化方法将文本转变为向量.为评估闵可夫斯基距离和余弦相似度识别作者的共同作用,提出了一种混合距离用于计算两个文本之间的距离.实验结果显示在中英文两种数据集上,运用提出的量化方法量化文本能有效提高支持向量机、K近邻和闵可夫斯基距离(p=1和p=2)识别文本作者的准确率.
文献关键词:
作者识别;文本量化;TF-IDF算法;文本距离
作者姓名:
李楚
作者机构:
东北大学秦皇岛分校,河北秦皇岛 066099
文献出处:
引用格式:
[1]李楚-.基于TF-IDF算法的文本量化方法及作者识别应用)[J].现代信息科技,2022(19):1-6,12
A类:
B类:
TF,IDF,文本量化,量化方法,作者识别,匿名,准确识别,网络环境,文本内容,常关,词频,文档,闵可夫斯基距离,余弦相似度,相似度识别,中英文,本能,高支,近邻,文本距离
AB值:
0.314452
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。