典型文献
面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例
文献摘要:
利用关键词抽取技术可以帮助读者提取高度凝练的文本主题,快速获得古籍文本的中心内容,对普及古汉语知识和传播中华优秀传统文化有着重要意义.文章以先秦两汉时期的"儒家""史书"数据库语料为分析对象,测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能.实验结果表明,从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容:前者与所抽儒家典籍文本的相似度为76%~78%,后者与所抽史书文本的相似度为75%~78%.实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性,能为开展古汉语文本主题分类、聚类和知识深度开发提供参考.
文献关键词:
数字人文;SikuBERT;关键词提取;汉语典籍
中图分类号:
作者姓名:
孙文龙;张逸勤;王凡铭;鱼汇沐;刘江峰;王东波
作者机构:
南京工业大学外国语言文学学院;南京大学信息管理学院;南京熙道文化传播有限公司;南京农业大学信息管理学院
文献出处:
引用格式:
[1]孙文龙;张逸勤;王凡铭;鱼汇沐;刘江峰;王东波-.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例)[J].图书馆论坛,2022(10):31-41
A类:
SikuBERT
B类:
数字人文,预训练模型,关键词抽取,文本主题,古籍,古汉语,先秦两汉,两汉时期,史书,语料,汉语文本,文本关键词,本能,应典,主题内容,典籍文本,主题分类,知识深度,深度开发,关键词提取,汉语典籍
AB值:
0.290733
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。