典型文献
融合注意力机制与句向量压缩的长文本分类模型
文献摘要:
[目的]针对预训练语言模型输入长度限制的缺点进行优化,提高长文本分类的准确度.[方法]设计依据自然文本中存在的标点符号进行分句并按次序输入预训练语言模型的分类模型;提出句向量平均池化法与注意力机制加权法对分类特征向量进行压缩编码,并在多个预训练语言模型上进行实验.[结果]相比于直接截断文本内容,使用句向量压缩的模型准确率最多提升了 3.74个百分点.在两种数据集上,融合注意力机制模型的F1-score相比基线模型分别平均提升1.61%和0.83%.[局限]在部分预训练语言模型上提升效果不显著.[结论]在不改变预训练语言模型架构时,结合分句内容信息的文本分类模型在不同预训练语言模型上能够有效提升分类效果.
文献关键词:
文本分类;预训练语言模型;特征向量;注意力机制;文本分割
中图分类号:
作者姓名:
叶瀚;孙海春;李欣;焦凯楠
作者机构:
中国人民公安大字信息网络安全学院 北京102627
文献出处:
引用格式:
[1]叶瀚;孙海春;李欣;焦凯楠-.融合注意力机制与句向量压缩的长文本分类模型)[J].数据分析与知识发现,2022(06):84-94
A类:
B类:
句向量,长文本分类,分类模型,预训练语言模型,模型输入,设计依据,标点符号,分句,按次,次序,平均池化,加权法,分类特征,特征向量,压缩编码,文本内容,模型准确率,百分点,注意力机制模型,score,比基,基线模型,提升效果,模型架构,分类效果,文本分割
AB值:
0.313292
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。