FAILED
首站-论文投稿智能助手
典型文献
融合字根信息的卷积神经网络中文分词方法
文献摘要:
作为自然语言处理任务的基础,中文分词的准确率直接影响命名实体识别、信息检索等任务的效果.针对现有分词模型使用的静态词向量精确表征能力较差和专业领域分词中模型适应性差等问题,本文提出一种使用字根信息为辅助特征的中文分词模型.模型分为主任务和辅助任务,主任务中使用ALBERT语言模型训练词向量,利用去池化卷积残差神经网络提取特征,与辅助任务抽取的特征融合后进行分词.辅助任务使用字根向量表示文本,通过浅层卷积提取特征,进行序列标注.借助损失函数利用辅助任务对主任务进行纠正,协助主任务实现中文分词.在BakeOff2005语料库的4个数据集以及两个小型法律文书数据集上进行实验,实验表明该文提出的分词模型在多数大型数据集上实验效果达到最优,并且在小型法律数据集上F1值最高达到97.90%.
文献关键词:
中文分词;ALBERT;汉字字根;残差网络;深度学习
作者姓名:
王星;于丽美;陈吉
作者机构:
辽宁工程技术大学 电子与信息工程学院,辽宁 葫芦岛125105
引用格式:
[1]王星;于丽美;陈吉-.融合字根信息的卷积神经网络中文分词方法)[J].小型微型计算机系统,2022(02):271-277
A类:
BakeOff2005,汉字字根
B类:
中文分词,自然语言处理,率直,命名实体识别,信息检索,模型使用,词向量,精确表征,表征能力,领域分词,用字,辅助任务,ALBERT,语言模型,模型训练,用去,池化,残差神经网络,提取特征,特征融合,务使,向量表示,序列标注,损失函数,语料库,法律文书,实验效果,法律数据,残差网络
AB值:
0.30943
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。