典型文献
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例
文献摘要:
数字人文研究为古籍文献的深度开发与展示提供了良好的平台.精准的文本分词是研究者在古籍文献处理中需要优先解决的问题.文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴.在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法.
文献关键词:
自动分词;数字人文;SikuBERT;预训练技术;词典信息融合
中图分类号:
作者姓名:
刘畅;王东波;胡昊天;张逸勤;李斌
作者机构:
南京农业大学信息管理学院;南京大学信息管理学院;南京师范大学文学院
文献出处:
引用格式:
[1]刘畅;王东波;胡昊天;张逸勤;李斌-.面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例)[J].图书馆论坛,2022(06):44-54
A类:
SikuBERT,词典信息融合,预训练技术
B类:
数字人文,外部特征,典籍,自动分词,预训练模型,人文研究,古籍文献,深度开发,文本分词,魏晋时期,修史,史籍,古文,词语,语料库,深度学习模型,发面,繁体
AB值:
0.284549
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。