首站-论文投稿智能助手
典型文献
融合知识表征的多模态Transformer场景文本视觉问答
文献摘要:
目的 现有视觉问答方法通常只关注图像中的视觉物体,忽略了对图像中关键文本内容的理解,从而限制了图像内容理解的深度和精度.鉴于图像中隐含的文本信息对理解图像的重要性,学者提出了针对图像中场景文本理解的"场景文本视觉问答"任务以量化模型对场景文字的理解能力,并构建相应的基准评测数据集TextVQA(text visual question answering)和 ST-VQA(scene text visual question answering).本文聚焦场景文本视觉问答任务,针对现有基于自注意力模型的方法存在过拟合风险导致的性能瓶颈问题,提出一种融合知识表征的多模态Trans-former 的场景文本视觉问答方法,有效提升了模型的稳健性和准确性.方法 对现有基线模型M4C(multimodal multi-copy mesh)进行改进,针对视觉对象间的"空间关联"和文本单词间的"语义关联"这两种互补的先验知识进行建模,并在此基础上设计了一种通用的知识表征增强注意力模块以实现对两种关系的统一编码表达,得到知识表征增强的 KR-M4C(knowledge-representation-enhanced M4C)方法.结果 在 TextVQA 和 ST-VQA 两个场景文本视觉问答基准评测集上,将本文KR-M4C方法与最新方法进行比较.本文方法在TextVQA数据集中,相比于对比方法中最好的结果,在不增加额外训练数据的情况下,测试集准确率提升2.4%,在增加ST-VQA数据集作为训练数据的情况下,测试集准确率提升1.1%;在ST-VQA数据集中,相比于对比方法中最好的结果,测试集的平均归一化Levenshtein相似度提升5%.同时,在TextVQA数据集中进行对比实验以验证两种先验知识的有效性,结果表明提出的KR-M4C模型提高了预测答案的准确率.结论 本文提出的KR-M4C方法的性能在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上均有显著提升,获得了在该任务上的最好结果.
文献关键词:
场景文本视觉问答;知识表征;注意力机制;Transformer;多模态融合
作者姓名:
余宙;俞俊;朱俊杰;匡振中
作者机构:
杭州电子科技大学计算机学院复杂系统建模与仿真教育部重点实验室,杭州 310018
引用格式:
[1]余宙;俞俊;朱俊杰;匡振中-.融合知识表征的多模态Transformer场景文本视觉问答)[J].中国图象图形学报,2022(09):2761-2774
A类:
场景文本视觉问答,TextVQA,M4C
B类:
融合知识,知识表征,Transformer,文本内容,内容理解,中隐,文本信息,中场,文本理解,量化模型,理解能力,评测数据集,text,visual,question,answering,ST,scene,自注意力模型,过拟合,瓶颈问题,基线模型,multimodal,copy,mesh,对视,空间关联,单词,语义关联,先验知识,注意力模块,统一编码,编码表,KR,knowledge,representation,enhanced,比方,增加额,训练数据,测试集,准确率提升,Levenshtein,注意力机制,多模态融合
AB值:
0.256889
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。