典型文献
基于Transformer交叉注意力的文本生成图像技术
文献摘要:
近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展.文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像.目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码,忽略了语言空间与图像空间之间的语义鸿沟问题.为解决这一问题,文中设计了一种基于交叉注意力编码器的对抗生成网络(CAE-GAN),该网络通过交叉注意力编码器,将文本信息与视觉信息进行翻译和对齐,以捕捉文本与图像信息之间的跨模态映射关系,从而提升生成图像的逼真度和与输入文本描述的匹配度.实验结果表明,在CUB和coco数据集上,与当前主流的方法DM GAN模型相比,CAE-GAN模型的IS(Inception Score)分数分别提升了2.53%和1.54%,FID (Frechet Inception Dis-tance)分数分别降低了15.10%和5.54%,由此可知,CAE-GAN模型生成图像的细节更加完整、质量更高.
文献关键词:
文本描述生成图像;生成对抗网络;交叉注意力编码;图像生成;计算机视觉
中图分类号:
作者姓名:
谈馨悦;何小海;王正勇;罗晓东;卿粼波
作者机构:
四川大学电子信息学院 成都610065
文献出处:
引用格式:
[1]谈馨悦;何小海;王正勇;罗晓东;卿粼波-.基于Transformer交叉注意力的文本生成图像技术)[J].计算机科学,2022(02):107-115
A类:
交叉注意力编码,文本描述生成图像
B类:
Transformer,文本生成图像,图像技术,生成对抗网络,建文,文本信息,视觉信息,进网,模型生成,预训练,文本编码,编码器,语义对齐,图像空间,语义鸿沟,中设计,对抗生成网络,CAE,GAN,图像信息,跨模态,映射关系,逼真度,匹配度,CUB,coco,DM,IS,Inception,Score,FID,Frechet,Dis,tance,由此可知,加完,图像生成,计算机视觉
AB值:
0.311653
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。