基于深度学习的古籍文本自动断句与标点一体化研究|袁义国;李斌;冯敏萱;贺胜;王东波|南京师范大学数字与人文研究中心南京210023 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于深度学习的古籍文本自动断句与标点一体化研究

文献摘要：

[目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用.现有研究主要存在两个亟待解决的问题.首先,将古籍断句与标点分为两个串行任务,会引起错误传递.其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少.[方法/过程]通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系.根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点.并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题.算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练.[结果/结论]在开放测试集《左传》上,点号标注的F1值为77.09％,断句达到91.72％;对单个引号的标注F1值达到89.28％,成对引号为83.88％.结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题.

文献关键词：

自动断句;自动标点;古籍;深度学习;数字人文

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[2] 文化、科学、教育、体育（G） / 信息与知识传播（G2） / 图书馆学、图书馆事业（G25） / 各种文献工作（G255） / 善本、线装古籍（G255.1）

[3] 文化、科学、教育、体育（G） / 教育（G4） / 教学理论（G42） / 教学研究和改革（G420）

作者姓名：

袁义国;李斌;冯敏萱;贺胜;王东波

作者机构：

南京师范大学文学院南京210097;南京师范大学数字与人文研究中心南京210023;南京农业大学信息管理学院南京210095

文献出处：

图书情报工作

引用格式：

[1]袁义国;李斌;冯敏萱;贺胜;王东波-.基于深度学习的古籍文本自动断句与标点一体化研究)[J].图书情报工作,2022(22):134-141

A类：

自动断句,串行任务,SikuRoBRETa

B类：

古籍,一体化研究,典籍,利用计算机,转化利用,误传,自动标注,长距离,嵌套,引号,语料库,标点符号,古文,自动标点,符号体系,据点,出断,一体化处理,处理方案,接在,占位,序列标注,标注方法,BiLSTM,CRF,亿多,繁体,成模,模型训练,测试集,左传,数字人文

AB值：

0.28351

相似文献

SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究

王东波;刘畅;朱子赫;刘江峰;胡昊天;沈思;李斌-南京农业大学信息管理学院;南京大学信息管理学院;南京理工大学经济管理学院;南京师范大学文学院

面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例

刘畅;王东波;胡昊天;张逸勤;李斌-南京农业大学信息管理学院;南京大学信息管理学院;南京师范大学文学院

面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例

耿云冬;张逸勤;刘欢;王东波-华中农业大学外国语学院;南京大学信息管理学院;南京农业大学信息管理学院

面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例

孙文龙;张逸勤;王凡铭;鱼汇沐;刘江峰;王东波-南京工业大学外国语言文学学院;南京大学信息管理学院;南京熙道文化传播有限公司;南京农业大学信息管理学院

数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例

林立涛;王东波;刘江峰;李斌;冯敏萱-南京农业大学信息管理学院;南京师范大学文学院

古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例

谢靖;刘江峰;王东波-南京中医药大学卫生经济管理学院;南京农业大学信息管理学院

数字人文视域下SikuBERT增强的史籍实体识别研究

刘江峰;冯钰童;王东波;胡昊天;张逸勤-南京农业大学信息管理学院;南京大学信息管理学院

面向数字人文的先秦两汉典籍自动标点研究——以SikuBERT预训练模型为例

赵连振;张逸勤;刘江峰;王东波;冯敏萱;李斌-南京大学外国语学院;南京大学信息管理学院;南京农业大学信息管理学院;南京师范大学文学院

英文文献的《中图法》分类号自动标注研究——基于文本增强与类目映射策略

蒋彦廷;吴钰洁-成都航空职业技术学院,成都 610100;北京师范大学文学院,北京 100875

基于深度学习的《方志物产》用途实体自动识别模型构建与应用

李娜-南京林业大学人文社会科学学院,南京 210037

基于Faster-RCNN的古籍图像文字检测研究

谢恩泽;吴政;倪劼-南京图书馆江苏南京,210018

推进新时代古籍工作,加快创新智能化发展

黄水清;王晓光;夏翠娟;欧阳剑-南京农业大学信息管理学院;武汉大学信息管理学院;上海图书馆;上海外国语大学图书馆

计算人文应成为新时代古籍整理与研究的重要学科方法

黄水清-南京农业大学信息管理学院,南京 210033

数智赋能时代的古籍工作展望

王晓光-武汉大学信息管理学院,武汉 430064

"数字藏品"与古籍的共享、传播和利用

夏翠娟-上海图书馆,上海 200031

古籍资源的转化利用是新时代古籍工作新任务

欧阳剑-上海外国语大学图书馆,上海 200083;上海外国语大学数字学术中心,上海 200083;中国国际舆情研究中心,上海 200083

基于机器学习的古籍目录互著与别裁探析

张力元;王军-北京大学信息管理系,北京100871

基于机器学习的古籍目录互著与别裁探

张力元;王军-北京大学图书馆北京100871;北京大学信息管理系北京100871

基于数据决策分析的科研成果关注度影响因素研究

王正威;李海林;陈多;万校基-华侨大学工商管理学院,福建泉州362021;华侨大学现代应用统计与大数据研究中心,福建厦门361021

基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例

张景素;魏明珠-华中科技大学人文学院,湖北武汉430074;吉林大学商学与管理学院,吉林长春130012

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。