基于CNN与Transformer混合结构的多语言图像标题生成研究|张大任;艾山·吾买尔;宜年;刘婉月;韩越|新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于CNN与Transformer混合结构的多语言图像标题生成研究

文献摘要：

针对现有图像标题生成模型在非英语语言中质量不高且仅能实现单一语言图像标题生成的问题,提出基于CNN与Transformer混合结构的多语言图像标题生成模型.首先利用CNN提取图像特征作为Transformer模型的编码端输入,然后解码端的输入为添加语言标签、进行分词与拉丁化处理后的6种语言,训练时将不同语言的损失和作为优化目标,最终实现不同语言间的联合训练.以Flickr8K数据集为基础,拓展了包含6种语言的多语言图像标题生成数据集,并在该数据集上进行了验证.结果表明:该模型可以同时生成多种语言的图像标题,且生成质量比相同规模的单语言模型质量高,并验证了该方法的有效性.

文献关键词：

多语言;深度学习;Transformer;联合训练;图像标题生成

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

作者姓名：

张大任;艾山·吾买尔;宜年;刘婉月;韩越

作者机构：

新疆大学信息科学与工程学院,新疆乌鲁木齐830046;新疆大学新疆多语种信息技术实验室,新疆乌鲁木齐830046

文献出处：

东北师大学报（自然科学版）

引用格式：

[1]张大任;艾山·吾买尔;宜年;刘婉月;韩越-.基于CNN与Transformer混合结构的多语言图像标题生成研究)[J].东北师大学报（自然科学版）,2022(02):68-75

A类：

图像标题生成,Flickr8K

B类：

Transformer,混合结构,多语言,生成模型,英语语言,言中,一语,图像特征,解码,分词,拉丁化,优化目标,联合训练,集为,多种语言,单语,语言模型

AB值：

0.245772

相似文献

基于3D-CNN的高光谱遥感图像分类算法

王立国;杨峰;石瑶;杨京辉-哈尔滨工程大学信息与通信工程学院,哈尔滨150001;大连民族大学信息与通信工程学院,大连116600;中国地质大学(北京) 信息工程学院,北京100083

基于级联残差对抗生成网络的超分辨重建

祁成晓;刘芳;孙策;曲振方;朱福珍-黑龙江大学电子工程学院,哈尔滨150080;黑龙江东方学院信息工程学院,哈尔滨150086

基于注意力机制的可见光与红外图像融合算法研究

徐志慧;汪国强-黑龙江大学电子工程学院,哈尔滨150080

深度显著图增强热红外图像行人检测

吴志飞;李晓慧;杨中凯;李钢;朱福珍-黑龙江大学电子工程学院,哈尔滨150080

基于改进U-Net的视网膜血管分割方法研究

郭峰;黄文博;燕杨-长春师范大学计算机科学与技术学院,吉林长春130032

多模型加权融合机制的石墨纯度识别

徐小平;余香佳;刘广钧;刘龙-西安理工大学理学院,陕西西安710054;西安理工大学自动化与信息工程学院,陕西西安710048

融合交叉自注意力和预训练模型的文本语义相似性评估方法

李正光;陈恒;李远刚-大连外国语大学语言智能研究中心,辽宁大连116044;大连外国语大学一带一路城市与区域发展研究院,辽宁大连116044;上海商学院商务信息学院,上海200235

基于BERT-BiLSTM-CRF的涉恐实体识别模型研究

卢睿;黄俊博;李林瑛-辽宁警察学院公安信息系,辽宁大连116036;大连外国语大学软件学院,辽宁大连116044

杆箍缩二极管阳极杆粒子生成模型研究

屈俊夫;冯元伟;耿力东;李洪涛-中国工程物理研究院流体物理研究所,绵阳 621900;中国工程物理研究院研究生院,绵阳 621999

特征图自适应知识蒸馏模型

吴致远;齐红;姜宇;崔楚朋;杨宗敏;薛欣慧-吉林大学计算机科学与技术学院,长春130012;中国科学院计算技术研究所,北京100190;吉林大学符号计算与知识工程教育部重点实验室,长春130012

黏性血管生成模型解的全局存在性和大时间行为

伍小莉;刘青青-华南理工大学数学学院,广州510641

基于Transformer的细粒度图像中文描述

肖雄;徐伟峰;王洪涛;苏攀;高思华-华北电力大学(保定)计算机系,河北保定071003;中国民航大学计算机科学与技术学院,天津300300

基于XML Schema分块的快速本体构建方法

何杰;屈国兴-宁夏大学地理科学与规划学院,银川750021

一种增强型动态图的软件水印算法

王巍;何颖;谭永坤;刘衍珩-长春财经学院信息工程学院,长春130122;中国电子科技集团公司第五十四研究所,石家庄050081;吉林大学计算机科学与技术学院,长春130012

基于注意力机制的航空图像旋转框目标检测

常洪彬;李文举;李文辉-吉林大学计算机科学与技术学院,长春130012

融入新闻标题信息的新闻文本与评论的语义相似度计算方法

李伊仝;王红斌;程良-昆明理工大学信息工程与自动化学院,昆明650504;昆明理工大学城市学院,昆明650051

高通量图像编码中的端到端量化参数优化方法

李铮;徐永昌;乾方圆;艾浩军-同济大学数学科学学院,上海200092;武汉大学国家网络安全学院,武汉430072

改进条件生成对抗网络的文本生成图像方法

侯丽君;倪建成;张素素-曲阜师范大学网络空间安全学院,273165,山东省曲阜市

融合注意力机制的海洋涡旋特征检测与分类模型构建

葛瑶;高鹏;鲁大营-曲阜师范大学网络空间安全学院,273165,山东省曲阜市

基于BERT的阅读理解式标书文本信息抽取方法

涂飞明;刘茂福;夏旭;张耀峰-武汉科技大学计算机科学与技术学院,湖北武汉430065;智能信息处理与实时工业系统湖北省重点实验室,湖北武汉430065;湖北经济学院湖北数据与分析中心,湖北武汉430205

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。