典型文献
基于迁移学习的小数据集命名实体识别研究
文献摘要:
针对军事重要目标实体自动获取的问题,提出一种将基于转换器的轻量级双向编码表征(a lite BERT,ALBERT)、双向门控循环单元(Bi-Gated recurrent unit,BiGRU)、条件随机场(conditional random field,CRF)相结合的小样本数据集命名实体识别方法.考虑到军事重要目标公开数据相对较少实体种类较多的问题,使用基于迁移学习的ALBERT作为分布式字符向量的生成模型;通过参数相对较少、泛化能力较强的BiGRU模型获取序列文本的上下文特征;通过CRF对输出添加约束,最终得到序列标注结果.实验结果表明:与传统的隐马尔卡夫模型(hidden Markov model,HMM)和双向长短期记忆-条件随机场(BiLSTM-CRF)模型相比,提出的方法F1值分别提升了7.1%和6.5%;与CRF模型相比,解决了人工定义特征模板效率低的问题,F1值提升了2.6%,为后续军事重要目标知识图谱的自动化构建提供了方法支撑.
文献关键词:
自然语言处理;中文命名实体识别;轻量级双向编码表征(ALBERT);双向门控循环单元;条件随机场
中图分类号:
作者姓名:
马良荔;李陶圆;刘爱军;覃基伟
作者机构:
海军工程大学电子工程学院,湖北 武汉 430033
文献出处:
引用格式:
[1]马良荔;李陶圆;刘爱军;覃基伟-.基于迁移学习的小数据集命名实体识别研究)[J].华中科技大学学报(自然科学版),2022(02):118-123
A类:
马尔卡
B类:
迁移学习,小数据,转换器,轻量级,编码表,lite,ALBERT,双向门控循环单元,Gated,recurrent,unit,BiGRU,条件随机场,conditional,random,field,CRF,小样本数据集,实体识别方法,字符,生成模型,泛化能力,上下文特征,序列标注,卡夫,hidden,Markov,model,HMM,双向长短期记忆,BiLSTM,特征模板,自动化构建,自然语言处理,中文命名实体识别
AB值:
0.32096
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。