基于知识辅助的图像描述生成|李志欣;苏强 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于知识辅助的图像描述生成

文献摘要：

为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一.大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系,而这种难以预测的匹配方式有时会造成2种模态间不协调的对应,从而降低描述语句的生成质量.针对此问题,本文提出一种文本相关的单词注意力来提高视觉注意力的正确性.这种特殊的单词注意力在模型序列地生成描述语句过程中强调不同单词的重要性,并充分利用训练数据中的内部标注知识来帮助计算视觉注意力.此外,为了揭示图像中不能被机器直接表达出来的隐含信息,将从外部知识图谱中抽取出来的知识注入到编码器—解码器架构中,以生成更新颖自然的图像描述.在MSCOCO和Flickr30k图像描述基准数据集上的实验表明,本方法能够获得良好的性能,并优于许多现有的先进方法.

文献关键词：

图像描述生成;内部知识;外部知识;单词注意力;知识图谱;强化学习

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

作者姓名：

李志欣;苏强

作者机构：

广西多源信息挖掘与安全重点实验室(广西师范大学),广西桂林541004

文献出处：

广西师范大学学报（自然科学版）

引用格式：

[1]李志欣;苏强-.基于知识辅助的图像描述生成)[J].广西师范大学学报（自然科学版）,2022(05):418-432

A类：

单词注意力

B类：

基于知识,知识辅助,图像描述生成,自动生成,描述语,语句,和图像,中区,映射关系,难以预测,匹配方式,视觉注意力,训练数据,部标,表达出来,隐含信息,外部知识,编码器,解码器,MSCOCO,Flickr30k,基准数据集,内部知识,强化学习

AB值：

0.307521

相似文献

基于双注意模型的图像描述生成方法研究

卓亚琦;魏家辉;李志欣-桂林理工大学理学院,广西桂林541004;广西师范大学广西多源信息挖掘与安全重点实验室,广西桂林541004

基于多重注意结构的图像密集描述生成方法研究

刘青茹;李刚;赵创;顾广华;赵耀-燕山大学信息科学与工程学院秦皇岛066004;河北省信息传输与信号处理重点实验室秦皇岛066004;北京交通大学信息科学研究所北京100044

基于显著性特征提取的图像描述算法

王鑫;宋永红;张元林-西安交通大学软件学院西安710049;西安交通大学人工智能学院西安710049

基于Triplet注意力的循环卷积神经网络模型

汪璟玢;雷晶;张璟璇;孙首男-福州大学计算机与大数据学院福州350108

标签指导的双注意力深度神经网络模型

彭展望;朱小飞;郭嘉丰-重庆理工大学计算机科学与工程学院重庆400054;中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190

基于卷积神经网络和Transformer的手写体英文文本识别

张显杰;张之明-武警工程大学信息工程学院,西安710086;武警工程大学研究生大队,西安710086

基于源语言句法增强解码的神经机器翻译方法

龚龙超;郭军军;余正涛-昆明理工大学信息工程与自动化学院,昆明 650504;云南省人工智能重点实验室(昆明理工大学),昆明 650504

基于细粒度视觉特征和知识图谱的视觉故事生成算法

李朦朦;江爱文;龙羽中;宁铭;彭虎;王明文-江西师范大学计算机信息工程学院,江西南昌 330022;九江学院计算机与大数据科学学院,江西九江 332005

融合视觉词与自注意力机制的视频目标分割

季传俊;陈亚当;车洵-南京信息工程大学计算机学院、软件学院、网络空间安全学院,南京 210044;数字取证教育部工程研究中心,南京 210044;南京众智维信息科技有限公司,南京 210006

融合知识表征的多模态Transformer场景文本视觉问答

余宙;俞俊;朱俊杰;匡振中-杭州电子科技大学计算机学院复杂系统建模与仿真教育部重点实验室,杭州 310018

结合多层级解码器和动态融合机制的图像描述

姜文晖;占锟;程一波;夏雪;方玉明-江西财经大学信息管理学院,南昌 330032

引入语义匹配和语言评价的跨语言图像描述

张静;郭丹;宋培培;李坤;汪萌-合肥工业大学计算机与信息学院,合肥 230601;大数据知识工程教育部重点实验室(肥工业大学),合肥 230601;智能互联系统安徽省实验室(合肥工业大学),合肥 230601

AMR文本生成的数据扩充方法

付叶蔷;李军辉-苏州大学计算机科学与技术学院,江苏苏州 215006

基于位置和注意力联合表示的知识图谱问答

吴天波;周欣;程军军;朱晗;何小海-四川大学电子信息学院,成都610065;中国信息安全测评中心,北京100085

一种通过评价类别分类提升评价对象抽取性能的方法

崔伟琪;严馨;滕磊;陈玮;徐广义-昆明理工大学信息工程与自动化学院,昆明 650504;昆明理工大学云南省人工智能重点实验室,昆明 650504;湖南快乐阳光互动娱乐传媒有限公司,长沙 410000;云南南天电子信息产业股份有限公司,昆明 650040

融合多粒度信息与外部知识的短文本匹配模型

梁登玉;刘大明-上海电力大学计算机科学与技术学院,上海200090

基于动态语义记忆网络的长尾图像描述生成

刘昊;杨小汕;徐常胜-中国科学院自动化研究所模式识别国家重点实验室,北京100190

文本信息辅助图像差异描述生成

陈玮婧;王维莹;金琴-中国人民大学信息学院, 北京100872

基于注意力机制和编码-解码架构的施工场景图像描述方法

农元君;王俊杰;陈红;孙文涵;耿慧;李书悦-中国海洋大学工程学院,山东青岛 266100

基于视觉关系推理与上下文门控机制的图像描述

陈巧红;裴皓磊;孙麒-浙江理工大学信息学院,浙江杭州 310018

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。