首站-论文投稿智能助手
典型文献
融合后验概率校准训练的文本分类算法
文献摘要:
用于文本表示的预训练语言模型在各种文本分类任务上实现了较高的准确率,但仍然存在以下问题:一方面,预训练语言模型在计算出所有类别的后验概率后选择后验概率最大的类别作为其最终分类结果,然而在很多场景下,后验概率的质量能比分类结果提供更多的可靠信息;另一方面,预训练语言模型的分类器在为语义相似的文本分配不同标签时会出现性能下降的情况.针对上述两个问题,提出一种后验概率校准结合负例监督的模型PosCal-negative.该模型端到端地在训练过程中动态地对预测概率和经验后验概率之间的差异进行惩罚,并在训练过程中利用带有不同标签的文本来实现对编码器的负例监督,从而为每个类别生成不同的特征向量表示.实验结果表明:PosCal-negative模型在两个中文母婴护理文本分类数据集MATINF-C-AGE和MATINF-C-TOPIC的分类准确率分别达到了91.55%和69.19%,相比ERNIE模型分别提高了1.13个百分点和2.53个百分点.
文献关键词:
文本分类;后验概率校准;预训练语言模型;负例监督;深度学习
作者姓名:
江静;陈渝;孙界平;琚生根
作者机构:
四川大学计算机学院,成都610065;四川民族学院理工学院,四川康定626001
文献出处:
引用格式:
[1]江静;陈渝;孙界平;琚生根-.融合后验概率校准训练的文本分类算法)[J].计算机应用,2022(06):1789-1795
A类:
后验概率校准,负例监督,PosCal,MATINF,TOPIC
B类:
文本分类,分类算法,文本表示,预训练语言模型,分类任务,下问,后选择,多场景,分类器,语义相似,性能下降,negative,端到端,训练过程,编码器,特征向量,向量表示,母婴护理,分类数据,AGE,分类准确率,ERNIE,百分点
AB值:
0.207274
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。