首站-论文投稿智能助手
典型文献
英文文献的《中图法》分类号自动标注研究——基于文本增强与类目映射策略
文献摘要:
给英文文献自动标注《中图法》分类号,能减轻图书馆与文献数据库工作人员的负担,促进跨语言知识检索与中外知识交流.面对既有的标注《中图法》分类号的英文文献数据不足的问题,本文面向预训练语言模型BERT,提出中文文献机器翻译、原始英文文本插入标点或语法词以增强分类模型泛化能力等文本增强策略,以及《美国国会图书馆分类法》到《中图法》的类目映射策略扩充文本数据.实验表明,3种策略均能有效提高文本分类效果.通过上述策略,分类的正确率与宏F1值分别提升约6.1个百分点与7.4个百分点.最后开发并发布了一个小程序,实现给英文文献自动、批量标注《中图法》20类一级分类号的功能.
文献关键词:
预训练语言模型;《中国图书馆分类法》;机器翻译;文本增强;类目映射
作者姓名:
蒋彦廷;吴钰洁
作者机构:
成都航空职业技术学院,成都 610100;北京师范大学文学院,北京 100875
文献出处:
引用格式:
[1]蒋彦廷;吴钰洁-.英文文献的《中图法》分类号自动标注研究——基于文本增强与类目映射策略)[J].数字图书馆论坛,2022(05):39-46
A类:
类目映射
B类:
英文文献,中图法,分类号,自动标注,文本增强,文献数据库,库工,跨语言,语言知识,知识检索,知识交流,预训练语言模型,BERT,中文文献,机器翻译,标点,语法,分类模型,模型泛化,泛化能力,增强策略,美国国会图书馆,分类法,文本数据,文本分类,分类效果,百分点,小程序,中国图书馆
AB值:
0.278235
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。