FAILED
首站-论文投稿智能助手
典型文献
基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨
文献摘要:
随着移动网络、自媒体平台的迅速发展,大量的视频和文本信息不断涌现,这给视频-文本数据跨模态实体分辨带来了迫切的现实需求.为提高视频-文本跨模态实体分辨的性能,提出了一种基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨模型(Fine-grained Semantic Association Video-Text Cross-Model Entity Resolution Model Based on Attention Mecha-nism,FSAAM).对于视频中的每一帧,利用图像特征提取网络特征信息,并将其作为特征表示,然后通过全连接网络进行微调,将每一帧映射到共同空间;同时,利用词嵌入的方法对文本描述中的词进行向量化处理,通过双向递归神经网络将其映射到共同空间.在此基础上,提出了一种自适应细粒度视频-文本语义关联方法,该方法计算文本描述中的每个词与视频帧的相似度,利用注意力机制进行加权求和,得出视频帧与文本的语义相似度,并过滤与文本语义相似度较低的帧,提高了模型性能.FSAAM主要解决了文本描述的词与视频帧关联程度不同而导致视频-文本跨模态数据语义关联难以构建以及视频冗余帧的问题,在MSR-VTT和VATEX数据集上进行了实验,实验结果验证了所提方法的优越性.
文献关键词:
跨模态实体分辨;共同空间;注意力机制;细粒度;语义相似度;特征提取
作者姓名:
曾志贤;曹建军;翁年凤;蒋国权;徐滨
作者机构:
中国人民解放军国防科技大学第六十三研究所 南京210007
文献出处:
引用格式:
[1]曾志贤;曹建军;翁年凤;蒋国权;徐滨-.基于注意力机制的细粒度语义关联视频-文本跨模态实体分辨)[J].计算机科学,2022(07):106-112
A类:
跨模态实体分辨,Mecha,FSAAM,VATEX
B类:
注意力机制,细粒度语义,语义关联,移动网络,自媒体平台,文本信息,文本数据,Fine,grained,Semantic,Association,Video,Text,Cross,Model,Entity,Resolution,Based,Attention,nism,一帧,图像特征提取,特征提取网络,网络特征,特征信息,特征表示,全连接网络,微调,射到,共同空间,用词,词嵌入,文本描述,行向量,向量化,双向递归神经网络,文本语义,关联方法,视频帧,加权求和,语义相似度,并过,模型性能,关联程度,跨模态数据,数据语义,MSR,VTT
AB值:
0.348756
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。