典型文献
句法分析中基于词汇化树邻接语法的数据增强方法
文献摘要:
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点.在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义.对此,我们首次提出基于词汇化树邻接语法的数据增强方法.针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行"接插"和"替换"的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构.针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库.我们以汉语为例开展研究,在汉语树库CTB5 上进行句法分析的数据增强评测实验.实验结果显示,在小样本(CTB5 的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高 1.39%和 2.14%.在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高 1.43%和0.44%,表现出更好的鲁棒性.
文献关键词:
依存句法分析;成分句法分析;词汇化树邻接语法;语言模型;数据增强
中图分类号:
作者姓名:
陈鸿彬;张玉洁;徐金安;陈钰枫
作者机构:
北京交通大学 计算机与信息技术学院,北京 100044
文献出处:
引用格式:
[1]陈鸿彬;张玉洁;徐金安;陈钰枫-.句法分析中基于词汇化树邻接语法的数据增强方法)[J].中文信息学报,2022(10):27-37,44
A类:
词汇化树邻接语法,CTB5,成分句法,成分句法分析
B类:
数据增强,增强方法,自然语言处理,基础技术,树库,研究焦点,语句,求数,所生,句子,求生,句法树,树结构,设计实现,成算,接插,合语,语法规则,语言模型,合理性评估,评测,小样本,依存句法分析,构建扩展,测试集
AB值:
0.158511
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。