首站-论文投稿智能助手
典型文献
面向中医古籍的单篇文本知识标引与结构解析技术
文献摘要:
[目的/意义]在无标注资源的情况下,对中医古籍文本领域的分词和命名实体识别技术进行研究,基于分词与命名实体识别模型,对中医领域文本进行分词并进行语言模型的训练.[方法/过程]在训练过程中,研究采用实体概念排序预测与遮罩词预测的多任务学习框架,有效将词典中的先验概念知识融入到语言模型中,得到融合语篇语义与先验知识的语言模型.从模型训练中使用的MLM任务出发,设计基于完形填空类型的文本生成任务来进行单篇古籍文本的知识标引,以短句-实体为路径,遍历单篇文本中所有的短句并进行知识概念的全标引,并基于先验规则的挖掘,从单篇文本中发现隐性知识结构,从而构建隐性篇章结构.[结果/结论]对比实验显示,在仅有5个标注样本的情况下,研究提出的文本标引方式能够有效利用模型的先验知识;相较于传统方法,能更好地解决标注缺失情况下的中医古籍文本知识标引的问题,为进一步实现中医古籍单篇文本的解析提供解决方法.对中医古籍进行整理、校注,挖掘其中蕴含的知识,对中医学与现代医学的发展,以及医学史的研究都有重要的理论与现实意义.
文献关键词:
单篇文本知识结构解析;知识标引;先验知识;词微调语言模型;实体概念识别
作者姓名:
刘耀;李冠霖;李浣青
作者机构:
中国科学技术信息研究所 北京100038;巴黎理工学院Samovar实验室 法国91120;北京大学软件与微电子学院 北京100871
文献出处:
引用格式:
[1]刘耀;李冠霖;李浣青-.面向中医古籍的单篇文本知识标引与结构解析技术)[J].图书情报工作,2022(24):118-127
A类:
单篇文本知识结构解析,词微调语言模型,实体概念识别
B类:
中医古籍,知识标引,注资,分词,命名实体识别,识别模型,训练过程,遮罩,多任务学习,词典,概念知识,合语,语篇语义,先验知识,模型训练,MLM,完形填空,空类,文本生成,短句,遍历,行知,隐性知识,篇章结构,校注,中医学,现代医学,医学史,理论与现实
AB值:
0.252575
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。