首站-论文投稿智能助手
典型文献
面向问题复述识别的定向数据增强方法
文献摘要:
问题复述识别旨在召回"同质异构"的问句对子(语义相同表述迥异的问句)和摒弃语义无关的噪声问句,对输入的问句对进行"是复述"和"非复述"的二相判别.现有预训练语言模型(如BERT、RoBERTa和MacBERT)被广泛应用于自然语言的语义编码,并取得了显著的性能优势.然而,其优势并未在问句复述问题的求解中得到充分的体现,原因在于:①预训练语言模型对特定任务中精细的语义表示需求并不敏感;②复述样本的"是与非"往往取决于极为微妙的语义差异.微调预训练语言模型成为提高其任务适应性的关键步骤,但其极大地依赖训练数据的数量(多样性)与质量(可靠性).为此,该文提出一种基于生成模型的定向数据增强方法(DDA).该方法能够利用诱导标签对神经生成网络进行引导,借以自动生成多样的复述和非复述的增强样本(即高迷惑性的异构样本),促进训练数据的自动扩展.此外,该文设计了一种多模型集成的标签投票机制,并用其修正增强样本的潜在标签错误,以此提高扩展数据的可靠性.在中文问题复述数据集LCQMC上的实验结果证明,与传统数据增强方法相比,该文方法生成的样本质量更高,且语义表达更加多元化.
文献关键词:
复述识别;预训练;微调;数据增强
作者姓名:
朱鸿雨;金志凌;洪宇;苏玉兰;张民
作者机构:
苏州大学 计算机科学与技术学院,江苏 苏州 215006
文献出处:
引用格式:
[1]朱鸿雨;金志凌;洪宇;苏玉兰;张民-.面向问题复述识别的定向数据增强方法)[J].中文信息学报,2022(09):38-45
A类:
复述识别
B类:
数据增强,增强方法,召回,问句,对子,迥异,摒弃,预训练语言模型,RoBERTa,MacBERT,自然语言,语义编码,性能优势,未在,不敏,微妙,语义差异,微调,关键步骤,训练数据,生成模型,DDA,导标,神经生成,生成网络,借以,自动生成,迷惑性,多模型集成,投票机制,LCQMC,语义表达
AB值:
0.343864
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。