典型文献
基于动态语义记忆网络的长尾图像描述生成
文献摘要:
图像描述生成任务旨在基于输入图像生成对应的自然语言描述.现有任务数据集中大部分图像的描述语句通常包含少量常见词和大量罕见词,呈现出长尾分布.已有研究专注于提升模型在整个数据集上的描述语句准确性,忽视了对大量罕见词的准确描述,限制了在实际场景中的应用.针对这一问题,提出了基于动态语义记忆网络(DSMN)的长尾图像描述生成模型,旨在保证模型对常见名词准确描述的同时,提升模型对罕见名词的描述效果.DSMN模型能够动态挖掘罕见词与常见词的全局语义关系,实现从常见词到罕见词的语义知识迁移,通过协同考虑全局单词语义关系信息及当前输入图像和已生成单词的局部语义信息提升罕见词的语义特征表示能力和预测性能.为了有效评价长尾图像描述生成方法,基于MS COCO Captioning数据集定义了长尾图像描述生成任务专用测试集Few-COCO.在MS COCO Captioning和Few-COCO数据集上的多个量化实验表明,DSMN模型在Few-COCO数据集上的罕见词描述准确率为0.6028%,召回率为0.3234%,F-1值为0.3567%,相较于基准方法提升明显.
文献关键词:
深度学习;图像理解;图像描述生成;长尾分布;记忆网络
中图分类号:
作者姓名:
刘昊;杨小汕;徐常胜
作者机构:
中国科学院自动化研究所 模式识别国家重点实验室,北京100190
文献出处:
引用格式:
[1]刘昊;杨小汕;徐常胜-.基于动态语义记忆网络的长尾图像描述生成)[J].北京航空航天大学学报,2022(08):1399-1408
A类:
DSMN
B类:
动态语义,语义记忆,记忆网络,图像描述生成,图像生成,自然语言,描述语,语句,长尾分布,生成模型,名词,全局语义,语义关系,语义知识,知识迁移,单词,词语,成单,语义信息,语义特征,特征表示,示能,预测性能,有效评价,生成方法,COCO,Captioning,测试集,Few,化实验,召回率,基准方法,图像理解
AB值:
0.306665
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。