典型文献
基于数据增强和多任务特征学习的中文语法错误检测方法
文献摘要:
由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度.该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足.数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征.该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果.
文献关键词:
中文语法错误检测;数据增强;多任务学习
中图分类号:
作者姓名:
谢海华;陈志优;程静;吕肖庆;汤帜
作者机构:
北大方正信息产业集团有限公司数字出版技术国家重点实验室,北京100871;北京雁栖湖应用数学研究院,北京101408;北京大学王选计算机研究所,北京100871
文献出处:
引用格式:
[1]谢海华;陈志优;程静;吕肖庆;汤帜-.基于数据增强和多任务特征学习的中文语法错误检测方法)[J].中文信息学报,2022(12):36-43
A类:
中文语法错误检测,语法错误检测,CGED,NLPTEA
B类:
数据增强,任务特征,特征学习,语料,远未,APM,预训练语言模型,语言学特征,多任务学习,训练集,语义信息,语法分析,模型学习,对比模型
AB值:
0.164563
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。