首站-论文投稿智能助手
典型文献
马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用
文献摘要:
自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自然语言生成任务的评测指标是序列级别的BLEU分数或者词错误率,这与训练使用的交叉熵准则也不匹配.在本文中,我们使用马尔可夫决策过程重定义了自然语言生成问题,并通过从训练数据中提取的先验控制向量来指导生成过程.先验控制向量可以视作是对序列空间的一种先验划分的抽象,通过在自然语言生成中引入先验控制向量,我们可以更好的约束自然语言生成的空间.再通过马尔可夫决策过程的定义,我们可以使用策略梯度算法来直接使用测试使用的BLEU分数来代替交叉熵训练LSTM网络.在多个数据集上的实验显示本文提出的方法相比于普通使用LSTM语言模型的基线系统在BLEU分数上有大约绝对2%~3%的提升.
文献关键词:
自然语言生成;马尔可夫决策过程;先验控制向量;策略梯度算法;深度强化学习
作者姓名:
刘奇;马娆;俞凯
作者机构:
上海交通大学人工智能研究院人工智能教育部重点实验室 上海200240;上海交通大学计算机科学与工程系跨媒体语言智能实验室 上海200240;新华社媒体融合生产技术与系统国家重点实验室第一联合创新中心 北京100803
文献出处:
引用格式:
[1]刘奇;马娆;俞凯-.马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用)[J].计算机学报,2022(02):289-301
A类:
先验控制向量
B类:
马尔可夫决策过程,自然语言生成,智能任务,长短时记忆,Long,Short,Term,Memory,语言模型,生成模型,词语,交叉熵,暴露偏差,评测指标,BLEU,错误率,成问题,训练数据,生成过程,使用策略,策略梯度算法,深度强化学习
AB值:
0.20223
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。