典型文献
融合自上而下和自下而上注意力的图像描述生成
文献摘要:
随着互联网的普及,每天都有海量的图片被传入互联网中.为了能更好地利用这些图片的价值,图像描述生成技术应运而生.提出一种融合自上而下和自下而上注意力的图像描述生成模型.在工作时,该模型分别利用预训练的ResNet101和Faster R-CNN(regions with convolutional neural network)提取输入图片的全局特征和局部特征,并利用自上而下和自下而上注意力分别计算两种特征的权重;利用门控循环单元(gate recurrent unit,GRU)提取一句话中单词之间的上下文语义信息;利用长短期记忆网络(long short-term memory,LSTM)解析图像特征和语义信息并生成描述语句.在训练时,首先以监督学习的方法,训练出基于编码器-解码器框架的一个基础模型;然后再以结合生成式对抗网络和强化学习的方法,在相互对抗中得到不断优化的策略函数和不断完善的奖励机制,从而使生成的句子更加准确、自然.本文模型在COCO数据集上进行训练和测试,最终在评价指标BLEU@1(bilingual evaluation understudy@1)上达到0.675,在BLEU@4上达到0.24,在CIDEr(consensus-based image description evaluation)上达到0.734,在ROUGE(recall-oriented understudy for gisting evaluation)上达到0.51.实验结果表明了本文模型的可行性与先进性.
文献关键词:
自上而下注意力;自下而上注意力;图像描述生成;生成式对抗网络(GAN);强化学习(RL)
中图分类号:
作者姓名:
武光利;郭振洲;李雷霆
作者机构:
甘肃政法大学网络空间安全学院,兰州730070
文献出处:
引用格式:
[1]武光利;郭振洲;李雷霆-.融合自上而下和自下而上注意力的图像描述生成)[J].科学技术与工程,2022(32):14313-14320
A类:
自下而上注意,自下而上注意力,bilingual,gisting,自上而下注意力
B类:
图像描述生成,天都,传入,生成技术,生成模型,预训练,ResNet101,Faster,regions,convolutional,neural,network,全局特征,局部特征,门控循环单元,gate,recurrent,unit,GRU,一句,单词,上下文语义,语义信息,长短期记忆网络,long,short,term,memory,析图,图像特征,描述语,语句,先以,监督学习,练出,编码器,解码器,基础模型,再以,生成式对抗网络,强化学习,策略函数,奖励机制,句子,COCO,BLEU,evaluation,understudy,上达,CIDEr,consensus,image,description,ROUGE,recall,oriented,GAN,RL
AB值:
0.391752
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。