基于Transformer交叉注意力的文本生成图像技术|谈馨悦;何小海;王正勇;罗晓东;卿粼波 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

基于Transformer交叉注意力的文本生成图像技术

文献摘要：

近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展.文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像.目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码,忽略了语言空间与图像空间之间的语义鸿沟问题.为解决这一问题,文中设计了一种基于交叉注意力编码器的对抗生成网络(CAE-GAN),该网络通过交叉注意力编码器,将文本信息与视觉信息进行翻译和对齐,以捕捉文本与图像信息之间的跨模态映射关系,从而提升生成图像的逼真度和与输入文本描述的匹配度.实验结果表明,在CUB和coco数据集上,与当前主流的方法DM GAN模型相比,CAE-GAN模型的IS(Inception Score)分数分别提升了2.53％和1.54％,FID (Frechet Inception Dis-tance)分数分别降低了15.10％和5.54％,由此可知,CAE-GAN模型生成图像的细节更加完整、质量更高.

文献关键词：

文本描述生成图像;生成对抗网络;交叉注意力编码;图像生成;计算机视觉

中图分类号：

[1] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 文字信息处理（TP391.1）

作者姓名：

谈馨悦;何小海;王正勇;罗晓东;卿粼波

作者机构：

四川大学电子信息学院成都610065

文献出处：

计算机科学

引用格式：

[1]谈馨悦;何小海;王正勇;罗晓东;卿粼波-.基于Transformer交叉注意力的文本生成图像技术)[J].计算机科学,2022(02):107-115

A类：

交叉注意力编码,文本描述生成图像

B类：

Transformer,文本生成图像,图像技术,生成对抗网络,建文,文本信息,视觉信息,进网,模型生成,预训练,文本编码,编码器,语义对齐,图像空间,语义鸿沟,中设计,对抗生成网络,CAE,GAN,图像信息,跨模态,映射关系,逼真度,匹配度,CUB,coco,DM,IS,Inception,Score,FID,Frechet,Dis,tance,由此可知,加完,图像生成,计算机视觉

AB值：

0.311653

相似文献

融合多级属性与注意力机制的人脸替换方法

肖清;杜建超;张向东-西安电子科技大学综合业务网理论及关键技术国家重点实验室西安 710071

融合笔画语义和注意力机制的汉字字体生成算法

王存睿;丁阳;刘宇;战国栋;李泽东-大连民族大学国家民委大数据应用技术重点实验室大连 116600;大连市汉字计算机字库设计技术创新中心大连 116600;Faculty of Computer Science and Information Technology,University Putra Malaysia Selangor 43400

基于语义一致性的细节保持图像生成方法

崔怀磊;刘丽;张化祥;刘冬梅;马跃;王泽康-山东师范大学信息科学与工程学院济南 250399;山东交通学院信息科学与电气工程学院济南 250300

多条件生成对抗网络的文本到视频合成方法

周瑞;姜聪;许庆阳;李贻斌;张承进;宋勇-山东大学机电与信息工程学院威海 264209;山东大学控制科学与工程学院济南 250061

基于BN优化SNGAN的自适应音频隐写