首站-论文投稿智能助手
典型文献
基于预训练语言模型的藏文文本分类
文献摘要:
藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性.大规模预训练模型加微调的方式是当前的主流文本分类方法.然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证.针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan).将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值.
文献关键词:
藏文文本分类;预训练语言模型;深度学习
作者姓名:
安波;龙从军
作者机构:
中国社会科学院民族学与人类学研究所,北京100081
文献出处:
引用格式:
[1]安波;龙从军-.基于预训练语言模型的藏文文本分类)[J].中文信息学报,2022(12):85-93
A类:
藏文文本分类
B类:
预训练语言模型,自然语言处理,大规模预训练,预训练模型,微调,文本分类方法,开源,分类任务,抓取,文本数据,BERT,base,Tibetan,分类模型
AB值:
0.156665
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。