引入语义匹配和语言评价的跨语言图像描述|张静;郭丹;宋培培;李坤;汪萌|大数据知识工程教育部重点实验室(肥工业大学),合肥 230601 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

引入语义匹配和语言评价的跨语言图像描述

文献摘要：

目的由于缺乏图像与目标语言域的成对数据,现有的跨语言描述方法都是基于轴(源)语言转化为目标语言,由于转化过程中的语义噪音干扰,生成的句子存在不够流畅以及与图像视觉内容关联弱等问题,为此,本文提出了一种引入语义匹配和语言评价的跨语言图像描述模型.方法首先,选择基于编码器—解码器的图像描述基准网络框架.其次,为了兼顾图像及其轴语言所包含的语义知识,构建了一个源域语义匹配模块;为了学习目标语言域的语言习惯,还构建了一个目标语言域评价模块.基于上述两个模块,对图像描述模型进行语义匹配约束和语言指导:1)图像&轴语言域语义匹配模块通过将图像、轴语言描述以及目标语言描述映射到公共嵌入空间来衡量各自模态特征表示的语义一致性.2)目标语言域评价模块依据目标语言风格,对所生成的描述句子进行语言评分.结果针对跨语言的英文图像描述任务,本文在MS COCO(Microsoft common objects in context)数据集上进行了测试.与性能较好的方法相比,本文方法在BLEU(bilingual evaluation understudy)-2、BLEU-3、BLEU-4和METEOR(metric for evaluation of translation with explicit ordering)等 4 个评价指标上的得分分别提升了 1.4％,1.0％,0.7％和 1.3％.针对跨语言的中文图像描述任务,本文在 AIC-ICC(image Chinese captioning from artificial intelligence challenge)数据集上进行了测试.与性能较好的方法相比,本文方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR 和 CIDEr(consensus-based image description evaluation)等 6 个评价指标上的评分分别提升了 5.7％,2.0％,1.6％,1.3％,1.2％和3.4％.结论本文模型中图像&轴语言域语义匹配模块引导模型学习了更丰富的语义知识,目标语言域评价模块约束模型生成更加流畅的句子,本文模型适用于跨语言图像描述生成任务.

文献关键词：

跨语言;图像描述;强化学习;神经网络;轴语言

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[3] 语言、文字（H） / 语言学（H0） / 语义学、语用学、词汇学、词义学（H03） / 语义学、语用学（H030）

作者姓名：

张静;郭丹;宋培培;李坤;汪萌

作者机构：

合肥工业大学计算机与信息学院,合肥 230601;大数据知识工程教育部重点实验室(肥工业大学),合肥 230601;智能互联系统安徽省实验室(合肥工业大学),合肥 230601

文献出处：

中国图象图形学报

引用格式：

[1]张静;郭丹;宋培培;李坤;汪萌-.引入语义匹配和语言评价的跨语言图像描述)[J].中国图象图形学报,2022(11):3343-3355

A类：

轴语言,bilingual

B类：

语义匹配,语言评价,跨语言,目标语言,言域,成对数据,语言转化,转化过程,噪音干扰,句子,流畅,视觉内容,内容关,图像描述模型,编码器,解码器,基准网络,网络框架,语言所,语义知识,源域,配模,学习目标,语言习惯,评价模块,射到,模态特征,特征表示,语义一致性,语言风格,所生,COCO,Microsoft,common,objects,context,BLEU,evaluation,understudy,METEOR,metric,translation,explicit,ordering,AIC,ICC,image,Chinese,captioning,from,artificial,intelligence,challenge,CIDEr,consensus,description,中图,模型学习,约束模型,模型生成,图像描述生成,强化学习

AB值：

0.338731

相似文献

融合多尺度与注意力机制的智能车间场景目标轻量级语义分割

严成良;陈光柱;易佳;苟荣松;廖晓鹃-成都理工大学机电工程学院成都 610059;成都理工大学计算机与网络安全学院成都 610059;成都理工大学核技术与自动化工程学院成都 610059

基于显著性特征提取的图像描述算法

王鑫;宋永红;张元林-西安交通大学软件学院西安710049;西安交通大学人工智能学院西安710049

融合自注意力机制的长文本生成对抗网络模型

夏鸿斌;肖奕飞;刘渊-江南大学人工智能与计算机学院,江苏无锡 214122;江苏省媒体设计与软件技术重点实验室,江苏无锡 214122

融合空间位置注意力机制的英语题注生成模型

王琴;王鑫;颜靖柯;钟美玲;曾静-桂林电子科技大学基础教学部,广西北海 536000;桂林电子科技大学计算机与信息安全学院,广西桂林 541004;桂林电子科技大学海洋工程学院,广西北海 536000;桂林电子科技大学计算机工程学院,广西北海 536000;电子科技大学信息与软件工程学院,成都 610000

基于空间和多层级联合编码的图像描述算法