典型文献
特征融合的中文专利文本分类方法研究
文献摘要:
[目的]为解决现有专利分类方法未考虑专利文本中的未登录词而导致召回率低的问题,提出一种特征融合的专利文本分类方法.[方法]基于特征融合的中文专利文本分类方法,利用不断更新的专有名词词表,将经过BERT预训练的句子向量与专有名词向量进行融合,并将专有名词的TF-IDF值作为权重对向量进行赋值.[结果]在自建专利文本语料库上的实验结果显示,所提方法达到84.43%的准确率、82.01%的召回率和81.23%的F1值,其中F1值相较其他方法提升约5.7个百分点.[局限]实验数据主要来源于新能源汽车领域,在其他领域中的效果有待验证.[结论]改善了数据分布不均衡以及专利文本存在大量未登录词的问题.此外,通过消融实验,评估了方法中添加专有名词与TF-IDF特征的有效性.
文献关键词:
专利;文本分类;特征融合;BERT TF-IDF
中图分类号:
作者姓名:
肖悦珺;李红莲;张乐;吕学强;游新冬
作者机构:
北京信息科技大学信息与通信工程学院 北京100101;北京信息科技大学网络文化与数字传播北京市重点实验室 北京100101
文献出处:
引用格式:
[1]肖悦珺;李红莲;张乐;吕学强;游新冬-.特征融合的中文专利文本分类方法研究)[J].数据分析与知识发现,2022(04):49-59
A类:
B类:
特征融合,利文,文本分类方法,专利分类,未登录词,召回率,不断更新,专有名词,词表,BERT,预训练,句子,词向量,TF,IDF,赋值,语料库,其他方法,百分点,新能源汽车,汽车领域,数据分布,消融实验
AB值:
0.258003
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。