典型文献
基于指针网络融入混淆集知识的中文语法纠错
文献摘要:
在中文语法纠错(CGEC)任务上,虽然替换类错误在数据集中占比最多,但还没有研究者尝试过将音近和形近知识融入基于神经网络的语法纠错模型中.针对这一问题,该文做了两方面的尝试.首先,该文提出了一种基于指针网络融入混淆集知识的语法纠错模型.具体而言,该模型在序列到编辑(Seq2 Edit)语法纠错模型基础上,利用指针网络融入汉字之间的音近和形近知识.其次,在训练数据预处理阶段,即从错误-正确句对抽取编辑序列过程中,该文提出一种混淆集指导的编辑距离算法,从而更好地抽取音近和形近字的替换类编辑.实验结果表明,该文提出的两点改进均能提高模型性能,且作用互补;该文所提出的模型在NLPCC 2018评测数据集上达到了目前最优性能.实验分析表明,与基准Seq2 Edit语法纠错模型相比,该文模型的性能提升大部分来自于替换类错误的纠正.
文献关键词:
语法纠错;混淆集;指针网络
中图分类号:
作者姓名:
李嘉诚;沈嘉钰;龚晨;李正华;张民
作者机构:
苏州大学 计算机科学与技术学院,江苏 苏州 215006
文献出处:
引用格式:
[1]李嘉诚;沈嘉钰;龚晨;李正华;张民-.基于指针网络融入混淆集知识的中文语法纠错)[J].中文信息学报,2022(04):29-38
A类:
混淆集,CGEC,Edit
B类:
指针网络,语法纠错,试过,音近,形近,列到,Seq2,汉字,训练数据,数据预处理,编辑距离,两点,模型性能,NLPCC,评测数据集,上达,最优性能,性能提升,分来
AB值:
0.227061
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。