首站-论文投稿智能助手
典型文献
基于深度学习的古籍文本自动断句与标点一体化研究
文献摘要:
[目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用.现有研究主要存在两个亟待解决的问题.首先,将古籍断句与标点分为两个串行任务,会引起错误传递.其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少.[方法/过程]通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系.根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点.并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题.算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练.[结果/结论]在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%.结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题.
文献关键词:
自动断句;自动标点;古籍;深度学习;数字人文
作者姓名:
袁义国;李斌;冯敏萱;贺胜;王东波
作者机构:
南京师范大学文学院 南京210097;南京师范大学数字与人文研究中心 南京210023;南京农业大学信息管理学院 南京210095
文献出处:
引用格式:
[1]袁义国;李斌;冯敏萱;贺胜;王东波-.基于深度学习的古籍文本自动断句与标点一体化研究)[J].图书情报工作,2022(22):134-141
A类:
自动断句,串行任务,SikuRoBRETa
B类:
古籍,一体化研究,典籍,利用计算机,转化利用,误传,自动标注,长距离,嵌套,引号,语料库,标点符号,古文,自动标点,符号体系,据点,出断,一体化处理,处理方案,接在,占位,序列标注,标注方法,BiLSTM,CRF,亿多,繁体,成模,模型训练,测试集,左传,数字人文
AB值:
0.28351
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。