典型文献
融合相似性判断的网络新词发现算法
文献摘要:
新词的有效识别是文本预处理过程中一项非常重要的任务,关系到分词效果的好坏.针对传统新词发现方法未考虑单字新词的识别,且忽略了上下文句法结构与语义信息对新词识别结果的影响,提出一种统计量计算结合相似性判断的网络新词发现算法.首先,基于字的粒度,依次计算单字词频、最大增强互信息和加权左右邻接熵,从左向右逐字扩展多字词,获得具有高成词概率的候选新词集合;再利用基于句法与语义的改进相似性计算模型,得到语句相似度,过滤无效新词.对比实验结果表明,该算法能够有效识别新词,相较于传统新词发现方法具有更高的准确率、召回率和F值.
文献关键词:
新词发现;句法分析;相似性计算;卷积神经网络;增强互信息
中图分类号:
作者姓名:
张爽;陈莉;李铮
作者机构:
西北大学信息科学与技术学院,陕西西安 710127
文献出处:
引用格式:
[1]张爽;陈莉;李铮-.融合相似性判断的网络新词发现算法)[J].西北大学学报(自然科学版),2022(02):239-247
A类:
增强互信息,多字词
B类:
网络新词,新词发现,文本预处理,分词,好坏,单字,上下文,文句,句法结构,语义信息,统计量,词频,邻接,左向右,逐字,成词,词集,进相,相似性计算,语句,召回率,句法分析
AB值:
0.294288
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。