首站-论文投稿智能助手
典型文献
数字人文视域下SikuBERT增强的史籍实体识别研究
文献摘要:
利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学习、增强文化自信与促进文明传播具有重要意义.命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa等预训练模型,以"前四史"和《左传》为研究语料,构建人名、地名、时间等命名实体识别任务.实验结果表明:SikuBERT、SikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能产生一定影响;BERT模型更为适应大规模语料任务.实验验证了基于《四库全书》繁体语料预训练的BERT模型在预训练-微调范式下典籍命名实体识别的可行性,构建了基于SikuBERT的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考.
文献关键词:
人文计算;SikuBERT;预训练模型;史籍;实体识别
作者姓名:
刘江峰;冯钰童;王东波;胡昊天;张逸勤
作者机构:
南京农业大学信息管理学院;南京大学信息管理学院
文献出处:
引用格式:
[1]刘江峰;冯钰童;王东波;胡昊天;张逸勤-.数字人文视域下SikuBERT增强的史籍实体识别研究)[J].图书馆论坛,2022(10):61-72
A类:
SikuBERT,GuwenBERT,SikuRoBERTa
B类:
数字人文,史籍,自然语言处理技术,中文古籍,古籍文献,历史学习,文明传播,命名实体识别,base,预训练模型,四史,左传,人名,地名,标点,小范,语体风格,语料规模,模型性能,四库全书,繁体,微调,典籍文本,文本挖掘,人文计算
AB值:
0.261358
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。