首站-论文投稿智能助手
典型文献
SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究
文献摘要:
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持.面向英语和现代汉语的预训练语言模型已在相关领域提升了文本挖掘精度,数字人文研究的兴起亟须面向古文自动处理领域的预训练模型.文章以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建面向古文智能处理任务的SikuBERT和SikuRoBERTa预训练语言模型.实验进一步设计面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对SikuBERT、SikuRoBERTa预训练模型和其他3种基线模型(BERT-base、RoBERTa、Gu?wenBERT)进行对比试验.结果显示:SikuBERT和SikuRoBERTa模型在全部4个下游验证任务中的表现均超越其他基线预训练模型,表明文章提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力.基于验证任务效果最优的SikuRoBERTa预训练模型,进一步构建"SIKU-BERT典籍智能处理平台".该平台提供典籍自动处理、检索和自动翻译等在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析.
文献关键词:
数字人文;四库全书;预训练模型;深度学习
作者姓名:
王东波;刘畅;朱子赫;刘江峰;胡昊天;沈思;李斌
作者机构:
南京农业大学信息管理学院;南京大学信息管理学院;南京理工大学经济管理学院;南京师范大学文学院
文献出处:
引用格式:
[1]王东波;刘畅;朱子赫;刘江峰;胡昊天;沈思;李斌-.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究)[J].图书馆论坛,2022(06):30-43
A类:
SikuBERT,SikuRoBERTa,wenBERT,SIKU
B类:
数字人文,四库全书,预训练模型,构建及应用,人文研究,语料库,古文,自然语言处理,现代汉语,预训练语言模型,文本挖掘,自动处理,校验,无监督训练,训练集,模型框架,建面,智能处理,左传,自动分词,断句,标点,词性标注,命名实体识别,基线模型,base,Gu,明文,文词,词法,句法,语境学,泛化能力,任务效果,处理平台,在线服务,历史学,专业背景,典籍文本,细粒,粒化,知识挖掘
AB值:
0.283992
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。