典型文献
基于CNN与Transformer混合结构的多语言图像标题生成研究
文献摘要:
针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言,训练时将不同语言的损失和作为优化目标,最终实现不同语言间的联合训练.以Flickr8K数据集为基础,拓展了包含6种语言的多语言图像标题生成数据集,并在该数据集上进行了验证.结果表明:该模型可以同时生成多种语言的图像标题,且生成质量比相同规模的单语言模型质量高,并验证了该方法的有效性.
文献关键词:
多语言;深度学习;Transformer;联合训练;图像标题生成
中图分类号:
作者姓名:
张大任;艾山·吾买尔;宜年;刘婉月;韩越
作者机构:
新疆大学信息科学与工程学院,新疆乌鲁木齐830046;新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046
文献出处:
引用格式:
[1]张大任;艾山·吾买尔;宜年;刘婉月;韩越-.基于CNN与Transformer混合结构的多语言图像标题生成研究)[J].东北师大学报(自然科学版),2022(02):68-75
A类:
图像标题生成,Flickr8K
B类:
Transformer,混合结构,多语言,生成模型,英语语言,言中,一语,图像特征,解码,分词,拉丁化,优化目标,联合训练,集为,多种语言,单语,语言模型
AB值:
0.245772
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。