典型文献
基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别
文献摘要:
字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要.为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法.该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)学习文本的长序列语义特征;最后使用条件随机场(Conditional Random Field,CRF)在训练数据中学习标注约束规则,并利用相邻标签之间的信息输出全局最优的标注序列.训练过程中使用了焦点损失函数来缓解样本分布不均衡的问题.试验在构建的语料库上对农作物品种、病害、虫害和农药4类农业实体进行识别.结果表明,该研究的EmBERT-BiLSTM-CRF模型对4类农业实体的识别性能相较于其他模型有明显提升,准确率为94.97%,F1值为95.93%.
文献关键词:
农业;命名实体识别;实体级遮蔽;BERT;BiLSTM;CRF
中图分类号:
作者姓名:
韦紫君;宋玲;胡小春;陈宁江
作者机构:
广西大学计算机与电子信息学院,南宁 530004;南宁学院信息工程学院,南宁 530200;广西多媒体通信与网络技术重点实验室,南宁 530004;广西财经学院信息与统计学院,南宁 530007
文献出处:
引用格式:
[1]韦紫君;宋玲;胡小春;陈宁江-.基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别)[J].农业工程学报,2022(15):195-203
A类:
实体级遮蔽,EmBERT
B类:
BiLSTM,CRF,命名实体识别,字符,位置信息,语义信息,命名方式,繁杂,识别过程,上下文语义,语义特征,长距离依赖,实体识别方法,预训练语言模型,Bidirectional,Encoder,Representation,from,Transformers,嵌入层,取字,字向量,双向长短时记忆网络,Long,Short,Term,Memory,学习文本,使用条件,条件随机场,Conditional,Random,Field,训练数据,信息输出,全局最优,训练过程,焦点损失函数,样本分布,语料库,农作物品种,虫害,识别性
AB值:
0.334151
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。