典型文献
多尺度模态感知在文本指代实例分割中的研究与应用
文献摘要:
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题.当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息.然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割.对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现.由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS).实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg 3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现.
文献关键词:
视觉与语言;文本指代实例分割;异模态融合与感知;特征金字塔
中图分类号:
作者姓名:
刘静;胡永利;刘秀平;谭红臣;尹宝才
作者机构:
北京工业大学人工智能与自动化学院,北京 100124;大连理工大学数学科学学院,辽宁大连 116024
文献出处:
引用格式:
[1]刘静;胡永利;刘秀平;谭红臣;尹宝才-.多尺度模态感知在文本指代实例分割中的研究与应用)[J].图学学报,2022(06):1150-1158
A类:
文本指代实例分割,RefCOCO,RefCOCO+,RefCOCOg,oIoU,视觉与语言,异模态融合与感知
B类:
RIS,文本描述,所指,割出,计算机视觉,研究课题,模态信息,语义信息,一尺,同大,上下文信息,小指,影响模型,交互感知,感知模块,掩膜,增强模型,不同尺度,例语,文本语义,过充,结构信息,分割模型,MMPN,公开数据集,前沿性,特征金字塔
AB值:
0.251789
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。