典型文献
基于半监督学习的中文电子病历命名实体识别
文献摘要:
面向中文电子病历的命名实体识别(named entity recognition,NER)研究已经取得不错的成果,但其中大部分方法依赖于已标注医疗语料而无法充分利用未标注语料,且方法中构建的文本特征相对单一,无法深入获取医疗文本的特征.针对上述问题,设计了一种基于半监督学习的N ER模型.首先,本模型通过构建多个特征来捕捉病历文本中的语义信息,使用基于转换器的双向编码表征(bidirectional encoder representation from transformers,BERT)训练海量的未标注数据来学习适合中文医疗领域的字向量表示,并使用双向语言模型捕捉每个字的上下文特征向量,以及使用医疗词典结合双向最大匹配算法构建文本的词典特征向量.其次,融合3种特征向量后输入由双向门控循环单元、自注意力机制和条件随机场组成的NER模型中训练.最后,NER模型通过预测未标注语料获得候选标注语料,引入自举(bootstrapping)算法筛选置信度高的候选标注语料,将其合并到初始标注语料后迭代训练NER模型.试验结果表明,本模型在自建脑血管数据集和中国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS)发布的CCKS2017、CCKS2018数据集上的F1值分别为90.16%、92.72% 和90.93%,优于其他使用额外特征的N ER模型和主流神经网络模型.本模型为提高中文电子病历的实体识别精度提供了一种新方法,可应用于实际工程中的NER任务.
文献关键词:
中文电子病历;命名实体识别;半监督学习;语言模型;自举算法
中图分类号:
作者姓名:
张杰;黄杰;万健
作者机构:
浙江科技学院信息与电子工程学院,杭州310023
文献出处:
引用格式:
[1]张杰;黄杰;万健-.基于半监督学习的中文电子病历命名实体识别)[J].浙江科技学院学报,2022(06):502-511
A类:
CCKS2018,自举算法
B类:
半监督学习,中文电子病历,命名实体识别,named,entity,recognition,NER,不错,语料,文本特征,医疗文本,语义信息,基于转换器的双向编码表征,bidirectional,encoder,representation,from,transformers,BERT,医疗领域,字向量,向量表示,双向语言模型,上下文特征,特征向量,最大匹配算法,建文,词典特征,双向门控循环单元,自注意力机制,条件随机场,bootstrapping,置信度,并到,迭代训练,中国知识,语义计算,China,Conference,Knowledge,Graph,Semantic,Computing,CCKS2017,识别精度
AB值:
0.315623
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。