首站-论文投稿智能助手
典型文献
基于改进文本表示的商品文本分类算法研究
文献摘要:
[目的]解决传统文本分类中分类器容易将属于不同标签但拥有许多相似修饰词的商品标题文本错误分类的问题,提高分类器的表现.[方法]本文设计了文本判别器作为辅助任务,其损失函数为不同标签文本向量的归一化欧氏距离,并结合传统文本分类主任务的交叉熵损失函数,推动文本编码器为不同类别的商品文本生成有足够区分度的文本表示,构建了 ITR-BiLSTM-Attention模型.[结果]对比没有使用文本判别器的BiLSTM-Attention基础模型,ITR-BiLSTM-Attention模型在准确率、精确率、召回率和F1值4个指标上分别提高1.84百分点、2.31百分点、2.88百分点、2.82百分点;对比文本判别器使用余弦相似度损失函数的Cos-BiLSTM-Attention模型,ITR-BiLSTM-Attention模型在4个指标上分别提高0.53百分点、0.54百分点、1.21百分点、1.01百分点.[局限]未测试不同采样方式对模型的影响,未在更广泛的数据集上进行实验.[结论]本文设计的文本判别器辅助任务确实能够改进文本编码器生成的文本表示;构建的基于改进文本表示的商品文本分类模型相比于传统的商品文本分类算法具有更好的表现.
文献关键词:
文本分类;文本表示;多任务学习;度量学习;商品分类
作者姓名:
屠振超;马静
作者机构:
南京航空航天大学经济与管理学院 南京211106
引用格式:
[1]屠振超;马静-.基于改进文本表示的商品文本分类算法研究)[J].数据分析与知识发现,2022(05):34-43
A类:
余弦相似度损失函数
B类:
文本表示,文本分类,分类算法,算法研究,分类器,修饰词,标题,误分类,判别器,辅助任务,文本向量,欧氏距离,交叉熵损失函数,文本编码,编码器,文本生成,区分度,ITR,BiLSTM,Attention,基础模型,精确率,召回率,百分点,Cos,采样方式,未在,分类模型,多任务学习,度量学习,商品分类
AB值:
0.264723
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。