典型文献
基于分段加权相似度匹配算法的中文科研机构名称归一化
文献摘要:
归一化是文本数据挖掘预处理的重要一步,实体名称归一化又占其中较大比重.实体名称归一化通常会用到字符串相似度匹配算法.以中文科研机构名称归一化为目标,提出了一种分段加权相似度匹配算法.算法将语料库中的科研机构全称进行合理的结构分段,将待归一化数据与分别分段字符串计算相似度,加权求和后选定相似度最大的全称作为归一化值.实验结果表明该方法效果良好,在中文科研机构名匹配和归一化方面有较大应用价值.
文献关键词:
中文归一化;文本相似度;编辑距离
中图分类号:
作者姓名:
沈沛;毛海涛;胡文林;刘宇麟
作者机构:
中国人民解放军92728部队 上海 200436
文献出处:
引用格式:
[1]沈沛;毛海涛;胡文林;刘宇麟-.基于分段加权相似度匹配算法的中文科研机构名称归一化)[J].信息技术与信息化,2022(09):59-62
A类:
中文归一化
B类:
权相,相似度匹配算法,科研机构,机构名称,文本数据挖掘,挖掘预处理,大比,会用,字符串,语料库,全称,加权求和,称作,大应用,文本相似度,编辑距离
AB值:
0.267294
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。