典型文献
基于Bootstrapping的家谱文本信息抽取方法研究
文献摘要:
实现家谱文本信息的自动抽取是家谱资源深度开发利用的关键.目前深度学习在家谱文本信息抽取方面取得了良好的效果,但是对标注数据的依赖始终是其发展瓶颈之一.本文面向家谱的世系小传,研究基于小规模标注数据进行家谱人物和关系的抽取方法.具体来说:基于Bootstrapping的思想,以少量的标注数据作为初始种子集,使用深度学习BiLSTM-CRF模型为待标注样本自动预测标签序列,并筛选高置信分数的样本加入标注集中,从而迭代地扩展标注集,最后训练得到的模型用于命名实体识别和关系抽取.基于真实数据集的实验表明,使用Bootstrapping改进的BiLSTM-CRF模型能够基于小规模标注数据实现家谱信息抽取,使基于深度学习的家谱信息抽取更加高效.在种子集规模为250条时取得的预测效果与训练集规模为1800条的BiLSTM-CRF模型的预测效果接近.
文献关键词:
家谱文本;信息抽取;深度学习;Bootstrapping;BiLSTM-CRF
中图分类号:
作者姓名:
鲍宸洋;任明
作者机构:
中国人民大学信息资源管理学院
文献出处:
引用格式:
[1]鲍宸洋;任明-.基于Bootstrapping的家谱文本信息抽取方法研究)[J].图书馆杂志,2022(02):93-102
A类:
家谱文本
B类:
Bootstrapping,文本信息抽取,自动抽取,源深,深度开发,发展瓶颈,世系,小传,小规模,行家,具体来说,种子集,使用深度,BiLSTM,CRF,自动预测,代地,练得,命名实体识别,关系抽取,真实数据,训练集
AB值:
0.245541
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。