典型文献
结合部首特征和BERT-Transformer-CRF的中文电子病历实体识别方法研究
文献摘要:
在中文电子病历命名实体识别(CNER)中,中文文本缺乏划分单词边界的分隔符,一些现有的方法难以捕捉长距离相互依赖的特征.因此,文章提出一种利用预训练模型(BERT-Transformer-CRF,BTC)实现CNER的命名实体识别方法.首先,运用BERT(Bidirectional Encoder Representations from Transformers)提取文本特征.其次,使用Transformer捕捉字符之间的依赖关系,此过程不需要考虑字符间的距离;此外,由于汉字的术语字典信息和部首信息包含更深层次的语义信息,所以将术语字典和部首的特征纳入模型以提高模型的性能.最后,运用CRF解码预测标签.实验结果表明所提模型在CCKS2017和CCKS2021数据集上的F1值分别达到了96.22%和84.65%,优于当前主流的命名实体识别模型,具有更好的识别效果.
文献关键词:
中文命名实体识别;部首特征;Transformer;BERT
中图分类号:
作者姓名:
姚蕾;蒋明峰;方贤;魏波;李杨
作者机构:
浙江理工大学计算机科学与技术学院, 浙江 杭州 310018
文献出处:
引用格式:
[1]姚蕾;蒋明峰;方贤;魏波;李杨-.结合部首特征和BERT-Transformer-CRF的中文电子病历实体识别方法研究)[J].软件工程,2022(12):30-36
A类:
部首特征,首信,CCKS2021
B类:
结合部,BERT,CRF,中文电子病历,实体识别方法,CNER,中文文本,单词,词边界,分隔符,长距离,相互依赖,预训练模型,BTC,Bidirectional,Encoder,Representations,from,Transformers,文本特征,字符,依赖关系,汉字,字典,语义信息,征纳,解码,CCKS2017,识别模型,中文命名实体识别
AB值:
0.31169
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。