典型文献
基于Simhash改进的文本去重算法
文献摘要:
为了提高大规模文本去重算法Simhash对重复数据的检测精度,针对词袋(Bag of Words,BoW)模型无法体现特征词位置分布信息的缺点,提出一种改进的Simhash算法(P-Simhash).该算法首先改进了Simhash计算特征词权重的方法,在由TF-IDF算法计算得到特征词的权重的基础上,引入Jaccard相似度量对共现词的权重进行优化,以降低共现词权重过高对检测文本差异的影响.其次采用BDR算法降维思想,设计了体现特征词位置差异的签名方案,将特征词在文本中出现的位置特征转化为一组由二进制向量表示的签名.最后,将特征词哈希签名与位置特征签名加权求和的结果作为其对应的特征向量,与经过优化后的特征词权重进行二次加权,合并降维后得到新的文本签名.使用开放的搜狗新闻数据集进行实验,并与其他算法进行了性能比较.实验结果表明,P-Simhash算法在去重效果和执行效率上较传统的Simhash算法有明显提高.
文献关键词:
Simhash;文本去重;词频-逆文本频率;Jaccard相似度;二进制压缩算法;位置特征
中图分类号:
作者姓名:
张亚男;陈卫卫;付印金;徐堃
作者机构:
陆军工程大学 指挥控制工程学院,江苏 南京 210007
文献出处:
引用格式:
[1]张亚男;陈卫卫;付印金;徐堃-.基于Simhash改进的文本去重算法)[J].计算机技术与发展,2022(08):26-32
A类:
文本去重,BDR,二进制压缩算法
B类:
Simhash,重复数据,检测精度,Bag,Words,BoW,特征词,位置分布,分布信息,TF,IDF,算法计算,Jaccard,相似度量,共现词,位置差异,签名,名方,位置特征,向量表示,哈希,加权求和,特征向量,二次加权,搜狗,新闻数据,性能比较,执行效率,词频
AB值:
0.338697
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。