典型文献
基于TD3算法的对话策略研究
文献摘要:
对话策略是任务型对话系统构建的核心组件,通常被定义为强化学习,通过代理和环境的交互,提升对话策略效率.针对当前任务型的对话系统缺少高质量的标注数据集及模型难于收敛等问题,提出了结合规划的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient)算法,用以优化对话策略.该算法使用孪生网络结构,采用软更新、策略噪音和延迟学习等方法,有效的改善了过估计问题.实验结果表明,该方法加速了模型的收敛,提升了对话成功率.
文献关键词:
对话系统;强化学习;对话策略;代理
中图分类号:
作者姓名:
洪洲;余承健
作者机构:
广州城市职业学院教务处,广州510408
文献出处:
引用格式:
[1]洪洲;余承健-.基于TD3算法的对话策略研究)[J].智能计算机与应用,2022(02):68-72
A类:
B类:
TD3,对话策略,任务型对话系统,系统构建,强化学习,当前任务,难于,双延迟深度确定性策略梯度,Twin,Delayed,Deep,Deterministic,Policy,Gradient,孪生网络,噪音
AB值:
0.344827
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。