首站-论文投稿智能助手
典型文献
基于BERT模型的中文期刊文献自动分类实践研究
文献摘要:
Google AI团队发布的BERT模型在多项自然语言处理任务中取得了研究成果,但在中文文献自动分类领域尚有待探索.本文旨在探索BERTbase中文基础模型在中文社科、科技期刊文献分类上的实际分类效果,指出模型在实际应用中存在的问题并提出解决方法.本文选取R大类(医药、卫生)、TG大类(金属学与金属工艺)、F大类(经济)、J大类(艺术)共1745000条数据作为训练语料,并以另外9610条数据作为测试样本,利用BERT模型分别对社科、科技期刊文献进行分类研究.测试结果表明BERT模型在社科文献中的四级准确率为76.95%,科技文献为68.55%.之后引入惩罚策略,为实际工作中免检数据阈值的设定提供参考.BERTbase模型在《全国报刊索引》实际分类标引工作中有一定可行性,基本满足当前网络环境下中文文献自动分类的需求.
文献关键词:
BERT模型;深度学习;文献分类;《中国图书馆分类法》
作者姓名:
沈立力;姜鹏;王静
作者机构:
上海图书馆
文献出处:
引用格式:
[1]沈立力;姜鹏;王静-.基于BERT模型的中文期刊文献自动分类实践研究)[J].图书馆杂志,2022(05):109-118,135
A类:
BERTbase
B类:
中文期刊,期刊文献,文献自动分类,Google,自然语言处理,中文文献,尚有,基础模型,文社,社科,科技期刊,文献分类,分类效果,出模,金属学,金属工艺,条数据,语料,分类研究,科文,四级,科技文献,惩罚策略,免检,报刊,索引,标引,网络环境,中国图书馆,分类法
AB值:
0.368965
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。