典型文献
融合多通道CNN与BiGRU的字词级文本错误检测模型
文献摘要:
文本校对是自然语言处理领域的重要分支.深度学习技术因强大的特征提取与学习能力被广泛应用于中文文本校对任务.针对现有中文文本错误检测模型忽略句子连续词间的局部信息、对于长文本的上下文语义信息提取不充分等问题,提出一种基于多通道卷积神经网络(CNN)与双向门控循环单元(BiGRU)的字词级文本错误检测模型.利用Word2vec向量化待检错文本,采用CNN挖掘待检错文本的局部特征,使用BiGRU学习待检错文本的上下文语义信息及长时依赖关系,并通过Softmax处理后输出文本分类结果以判断文本中是否含有字词错误,同时采取L2正则化和dropout策略防止模型过拟合.在SIGHAN2014和SIGHAN2015中文拼写检查任务数据集上的实验结果表明,与基于长短时记忆网络的文本错误检测模型相比,该模型的检错F1值提升了3.01个百分点,具有更优的字词级文本错误检测效果.
文献关键词:
字词错误;多通道卷积操作;卷积神经网络;双向门控循环单元;文本错误检测
中图分类号:
作者姓名:
郭可翔;王衡军;白祉旭
作者机构:
信息工程大学 密码工程学院,郑州 450001;中国人民解放军96714部队,福建 永安 366001
文献出处:
引用格式:
[1]郭可翔;王衡军;白祉旭-.融合多通道CNN与BiGRU的字词级文本错误检测模型)[J].计算机工程,2022(09):63-70
A类:
文本错误检测,字词错误,SIGHAN2014,SIGHAN2015,拼写检查,多通道卷积操作
B类:
BiGRU,检测模型,文本校对,自然语言处理,深度学习技术,中文文本,句子,局部信息,长文,上下文语义,语义信息,信息提取,多通道卷积神经网络,双向门控循环单元,Word2vec,向量化,检错,局部特征,依赖关系,Softmax,文本分类,L2,正则化,dropout,过拟合,长短时记忆网络,百分点,检测效果
AB值:
0.209095
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。