基于TD3算法的对话策略研究|洪洲;余承健 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于TD3算法的对话策略研究

文献摘要：

对话策略是任务型对话系统构建的核心组件,通常被定义为强化学习,通过代理和环境的交互,提升对话策略效率.针对当前任务型的对话系统缺少高质量的标注数据集及模型难于收敛等问题,提出了结合规划的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient)算法,用以优化对话策略.该算法使用孪生网络结构,采用软更新、策略噪音和延迟学习等方法,有效的改善了过估计问题.实验结果表明,该方法加速了模型的收敛,提升了对话成功率.

文献关键词：

对话系统;强化学习;对话策略;代理

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 自动推理、机器学习（TP181）

作者姓名：

洪洲;余承健

作者机构：

广州城市职业学院教务处,广州510408

文献出处：

智能计算机与应用

引用格式：

[1]洪洲;余承健-.基于TD3算法的对话策略研究)[J].智能计算机与应用,2022(02):68-72

A类：

B类：

TD3,对话策略,任务型对话系统,系统构建,强化学习,当前任务,难于,双延迟深度确定性策略梯度,Twin,Delayed,Deep,Deterministic,Policy,Gradient,孪生网络,噪音

AB值：

0.344827

相似文献

基于DDPG的三维重建模糊概率点推理

李雷;徐浩;吴素萍-宁夏大学信息工程学院银川750021

采用分类经验回放的深度确定性策略梯度方法

时圣苗;刘全-苏州大学计算机科学与技术学院苏州215006;苏州大学江苏省计算机信息处理技术重点实验室苏州215006;吉林大学符号计算与知识工程教育部重点实验室长春130012;软件新技术与产业化协同创新中心南京210000

可编程数据平面下基于DDPG的路由优化方法

徐博;周建国;吴静;罗威-武汉大学电子信息学院,武汉 430072;中国舰船研究设计中心,武汉 430064

多轮任务型对话系统研究进展

曹亚如;张丽萍;赵乐乐-内蒙古师范大学计算机科学技术学院,呼和浩特010022

基于改进DDPG算法的复杂环境下AGV路径规划方法研究

孟晨阳;郝崇清;李冉;王晓博;王昭雷;赵江-河北科技大学电气工程学院,石家庄 050018;河北工业职业技术大学智能制造系,石家庄 050091;河北省电力有限公司,石家庄050051

基于深度强化学习的无信号灯交叉路口车辆控制

欧阳卓;周思源;吕勇;谭国平;张悦;项亮亮-河海大学计算机与信息学院南京211100;江苏智能交通及智能驾驶研究院南京210019

空中智能反射面辅助边缘计算中基于PPO的任务卸载方案

谢万城;李斌;代玥玥-南京信息工程大学计算机与软件学院南京210044;南京邮电大学宽带无线通信与传感网技术教育部重点实验室南京210003;华中科技大学6G研究中心与网络空间安全学院武汉430074

PPO强化学习的多智能体对话策略学习方法

魏鹏飞;曾碧;廖文雄-广东工业大学计算机学院,广州510006

面向语义多样性的对话生成模型

刘家;卢永美;何东;卜令梅;陈黎;于中华-四川大学计算机学院,成都610065

一种基于多步竞争网络的多智能体协作方法

厉子凡;王浩;方宝富-合肥工业大学计算机与信息学院,合肥 230601

基于深度强化学习的机械臂控制快速训练方法

赵寅甫;冯正勇-西华师范大学电子信息工程学院,四川南充637009

基于DRL的MEC卸载网络竞争窗口优化

詹御;张郭健;彭麟杰;文军-电子科技大学信息与软件工程学院,四川成都 610054

智能对外汉语学习系统的设计与研究

李斌;王浩畅-湖南科技大学,湖南湘潭 411201;东北石油大学计算机与信息技术学院,黑龙江大庆 163318

基于值分布的多智能体分布式深度强化学习算法

陈妙云;王雷;盛捷-中国科学技术大学信息科学与技术学院, 合肥 230027

基于决策知识学习的多无人机航迹协同规划

曾熠;刘丽华;李璇;杜溢墨;陈丽娜-解放军31008部队,北京100091;国防科技大学系统工程学院,长沙410073

基于异构融合特征的深度强化学习自动驾驶决策方法

冯天;石朝侠;王燕清-南京理工大学计算机科学与工程学院南京 210094;南京晓庄学院信息工程学院南京 211171

基于强化学习TD3算法的投资组合管理

陈浩;时正华-河海大学理学院南京 211100

基于生成对抗网络的情感对话回复生成

李凯伟;马力-西北大学网络和数据中心,西安 710127;西安邮电大学计算机学院,西安 710121

基于知识迁移和双向异步序列的对话生成模型

王勇超;曹钰;杨玉辉;许端清-浙江大学信息技术中心,浙江杭州 310027;浙江大学计算机科学与技术学院,浙江杭州 310027

基于强化学习的艾灸机器人温度控制策略研究

张博;黄山;张浛芮;李应昆;涂海燕-四川大学电气工程学院成都610065;四川省成都市第五人民医院康复医学科成都611130;四川省成都中医药大学附属医院针灸康复科成都610072

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。