首站-论文投稿智能助手
典型文献
基于预训练模型的多标签专利分类研究
文献摘要:
[目的]提高专利自动分类效果,准确地为专利申请书匹配适合的一个或多个IPC分类号.[方法]构建了大规模中文专利数据集(CNPatents),选取IPC分类号中的前4位作为分类标签,使用BERT、RoBERTa和RBT3模型进行训练和测试.[结果]实验结果表明,在含有600多个类别的分类任务中,最好的模型分类准确率为0.756,Micro-F1值为0.597;经过高频标签筛选后,准确率提升到0.912,Micro-F1值提升到0.717.[局限]作为训练集的专利文本存在数据不平衡的状况,对训练集进行高频标签筛选仍未完全解决该问题,需要进一步扩大专利数据集规模.[结论]实现了多标签专利的自动分类,并通过高频标签筛选进一步提升了模型的分类效果.
文献关键词:
专利分类;预训练模型;专利文本表示
作者姓名:
佟昕璃;赵蕊洁;路永和
作者机构:
中山大学信息管理学院 广州510006
引用格式:
[1]佟昕璃;赵蕊洁;路永和-.基于预训练模型的多标签专利分类研究)[J].数据分析与知识发现,2022(02):129-137
A类:
CNPatents,RBT3,专利文本表示
B类:
预训练模型,多标签,专利分类,分类研究,高专,自动分类,分类效果,专利申请,申请书,IPC,分类号,专利数据,RoBERTa,分类任务,模型分类,分类准确率,Micro,准确率提升,训练集,数据不平衡,大专
AB值:
0.318136
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。