首站-论文投稿智能助手
典型文献
基于强化学习的对抗预训练语言建模方法
文献摘要:
在大规模无监督语料上的BERT、XLNet等预训练语言模型,通常采用基于交叉熵损失函数的语言建模任务进行训练.模型的评价标准则采用困惑度或者模型在其他下游自然语言处理任务中的性能指标,存在损失函数和评测指标不匹配等问题.为解决这些问题,该文提出一种结合强化学习的对抗预训练语言模型RL-XLNet(Reinforcement Learning-XLNet).RL-XLNet采用对抗训练方式训练一个生成器,基于上下文预测选定词,并训练一个判别器判断生成器预测的词是否正确.通过对抗网络生成器和判别器的相互促进作用,强化生成器对语义的理解,提高模型的学习能力.由于在文本生成过程中存在采样过程,导致最终的损失无法直接进行回传,故提出采用强化学习的方式对生成器进行训练.基于通用语言理解评估基准(GLUE Benchmark)和斯坦福问答任务(SQuAD 1.1)的实验,结果表明,与现有BERT、XLNet方法相比,RL-XLNet模型在多项任务中的性能上表现出较明显的优势:在GLUE的六个任务中排名第1,一个任务排名第2,一个任务排名第3.在SQuAD 1.1任务中F 1值排名第1.考虑到运算资源有限,基于小语料集的模型性能也达到了领域先进水平.
文献关键词:
自然语言处理;预训练;语言模型;强化学习
作者姓名:
颜俊琦;孙水发;吴义熔;裴伟;董方敏
作者机构:
三峡大学 智慧医疗宜昌市重点实验室,湖北 宜昌 443002;三峡大学 计算机与信息学院,湖北 宜昌 443002
文献出处:
引用格式:
[1]颜俊琦;孙水发;吴义熔;裴伟;董方敏-.基于强化学习的对抗预训练语言建模方法)[J].中文信息学报,2022(04):20-28
A类:
B类:
强化学习,语言建模,无监督,BERT,XLNet,预训练语言模型,交叉熵损失函数,自然语言处理,评测指标,RL,Reinforcement,Learning,对抗训练,训练方式,生成器,上下文,判别器,对抗网络,化生成,文本生成,生成过程,接进,回传,通用语言,语言理解,评估基准,GLUE,Benchmark,斯坦福,问答,SQuAD,中排,排名第,小语料,模型性能
AB值:
0.334133
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。