典型文献
融合类别先验Mixup数据增强的罪名预测方法
文献摘要:
罪名预测是人工智能技术应用于司法领域的代表性任务.该任务根据案情描述和事实预测被告人被判的罪名.由于各类罪名样本数量高度不平衡,分类模型训练时分类器易偏向高频罪名类别,从而导致低频罪名预测性能不佳.针对罪名预测类别不平衡问题,提出融合类别先验Mixup数据增强策略的罪名预测模型,改进低频罪名预测效果.该模型利用双向长短期记忆网络与结构化自注意力机制学习文本向量表示,在此基础上,通过Mixup数据增强策略在向量表示空间中合成伪样本,并利用类别先验使合成样本的标签偏向低频罪名类别,以此来扩增低频罪名训练样本.实验结果表明,与现有方法相比,该方法在准确率、宏精确率、宏召回率和宏F1值上都获得了大幅提升,低频罪名预测的宏F1值提升达到13.5%.
文献关键词:
类别先验Mixup;罪名预测;类别不平衡分类;低频罪名
中图分类号:
作者姓名:
线岩团;陈文仲;余正涛;张亚飞;王红斌
作者机构:
昆明理工大学信息工程与自动化学院 昆明650500;昆明理工大学云南省人工智能重点实验室 昆明650500
文献出处:
引用格式:
[1]线岩团;陈文仲;余正涛;张亚飞;王红斌-.融合类别先验Mixup数据增强的罪名预测方法)[J].自动化学报,2022(08):2097-2107
A类:
低频罪名,结构化自注意力,类别不平衡分类
B类:
类别先验,Mixup,罪名预测,人工智能技术应用,司法领域,案情,事实预测,被告人,被判,样本数量,分类模型,模型训练,分类器,预测性能,不平衡问题,数据增强策略,双向长短期记忆网络,自注意力机制,学习文本,文本向量,向量表示,合成样本,训练样本,精确率,召回率
AB值:
0.212449
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。