典型文献
基于预训练语言模型的关键词感知问题生成
文献摘要:
问题生成任务是指根据给定的文本段落和答案来自动生成对应的问题.针对现有问题生成方法存在的误差累积现象以及问题生成任务固有的"一对多"情况,提出一种带有关键词感知功能的问题生成方法.在预训练语言模型的基础上,实现关键词分类模型与问题生成模型的网络结构设计.输入文本段落中蕴含关键词,为使所生成的问题中包含同样的关键词以保证问题与段落的语义一致性,利用关键词分类模型提取出文本段落中的关键词,将关键词与非关键词的区分特征融入问题生成模型的输入中,该特征作为问题生成过程的全局信息,用以消除问题生成模型仅依赖局部最优解的弊端,减少误差累积与"一对多"情况的发生.在SQuAD数据集上的实验结果表明,该方法能够提升问题生成的质量,其BLEU-4指标值可达24,优于带有复制机制、带有语义监督的问题生成模型,目前已经借助百度百科数据平台实现了大规模工业应用.
文献关键词:
问题生成;预训练语言模型;关键词分类;自注意力掩码;嵌入向量
中图分类号:
作者姓名:
于尊瑞;毛震东;王泉;张勇东
作者机构:
中国科学技术大学 信息科学技术学院,合肥 230000;北京百度网讯科技有限公司,北京 100000
文献出处:
引用格式:
[1]于尊瑞;毛震东;王泉;张勇东-.基于预训练语言模型的关键词感知问题生成)[J].计算机工程,2022(02):125-131
A类:
关键词分类,自注意力掩码
B类:
预训练语言模型,词感,本段,段落,自动生成,现有问题,生成方法,误差累积,感知功能,实现关键,分类模型,问题生成模型,网络结构设计,所生,语义一致性,非关键,分特征,生成过程,全局信息,局部最优解,减少误差,SQuAD,BLEU,指标值,复制机制,语义监督,百度,百科,工业应用,嵌入向量
AB值:
0.287663
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。