典型文献
基于自适应词嵌入RoBERTa-wwm的名中医临床病历命名实体识别研究
文献摘要:
为了解决中文医疗命名实体识别任务中语义缺失、命名实体嵌套等问题,提升名中医临床病历中的实体识别效果,提出基于自适应词嵌入RoBERTA-wwm的名中医临床病历命名实体识别模型.病历中原始文本经过Ro?BERTa-wwm预训练模型得到的初始向量采用Soft-lexicon方法动态融合词典信息,进行词汇增强,生成文本语义向量经过下游双向长短期记忆(BiLSTM)学习序列依赖关系,最终经过条件随机场(CRF)解码提取出实体.该模型在名中医李铁军治疗心血管疾病的临床病历数据集上取得86.88%的F1值,较RoBERTa-wwm-CRF、Bert-CRF模型分别提高5.93%、5.87%,在速度上也有所提升.在常规RoBERTA-wwm模型中引入自适应词嵌入进行词汇增强,使模型更好地学习文本语义信息,相较于其他基线模型,其在名中医临床病历命名实体识别任务方面具有显著优势.
文献关键词:
信息抽取;命名实体识别;名中医临床病历;RoBERTa-wwm;词汇增强
中图分类号:
作者姓名:
万泽宇;龚庆悦;李铁军;王红云;鲍剑洋
作者机构:
南京中医药大学人工智能与信息技术学院;南京中医药大学第二附属医院(江苏省第二中医院);南京中医药大学护理学院,江苏南京 210046
文献出处:
引用格式:
[1]万泽宇;龚庆悦;李铁军;王红云;鲍剑洋-.基于自适应词嵌入RoBERTa-wwm的名中医临床病历命名实体识别研究)[J].软件导刊,2022(12):58-62
A类:
名中医临床病历,RoBERTA,BERTa
B类:
词嵌入,RoBERTa,wwm,命名实体识别,语义缺失,实体嵌套,识别模型,预训练模型,Soft,lexicon,动态融合,词典,词汇增强,成文,文本语义,双向长短期记忆,BiLSTM,学习序列,依赖关系,条件随机场,CRF,解码,李铁,铁军,心血管疾病,历数,Bert,地学,学习文本,语义信息,基线模型,显著优势,信息抽取
AB值:
0.245844
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。