典型文献
视觉知识:跨媒体智能进化的新支点
文献摘要:
回顾跨媒体智能的发展历程,分析跨媒体智能的新趋势与现实瓶颈,展望跨媒体智能的未来前景.跨媒体智能旨在融合多来源、多模态数据,并试图利用不同媒体数据间的关系进行高层次语义理解与逻辑推理.现有跨媒体算法主要遵循了单媒体表达到多媒体融合的范式,其中特征学习与逻辑推理两个过程相对割裂,无法综合多源多层次的语义信息以获得统一特征,阻碍了推理和学习过程的相互促进和修正.这类范式缺乏显式知识积累与多级结构理解的过程,同时限制了模型可信度与鲁棒性.在这样的背景下,本文转向一种新的智能表达方式——视觉知识.以视觉知识驱动的跨媒体智能具有多层次建模和知识推理的特点,并易于进行视觉操作与重建.本文介绍了视觉知识的3个基本要素,即视觉概念、视觉关系和视觉推理,并对每个要素展开详细讨论与分析.视觉知识有助于实现数据与知识驱动的统一框架,学习可归因可溯源的结构化表达,推动跨媒体知识关联与智能推理.视觉知识具有强大的知识抽象表达能力和多重知识互补能力,为跨媒体智能进化提供了新的有力支点.
文献关键词:
跨媒体智能;视觉知识;视觉概念;视觉关系;视觉推理
中图分类号:
作者姓名:
杨易;庄越挺;潘云鹤
作者机构:
浙江大学计算机科学与技术学院,杭州 310027;之江实验室,杭州 310027
文献出处:
引用格式:
[1]杨易;庄越挺;潘云鹤-.视觉知识:跨媒体智能进化的新支点)[J].中国图象图形学报,2022(09):2574-2588
A类:
跨媒体智能,视觉推理
B类:
视觉知识,智能进化,支点,现实瓶颈,未来前景,多来源,多模态数据,图利,媒体数据,语义理解,逻辑推理,媒体算法,媒体表达,多媒体融合,特征学习,两个过程,割裂,语义信息,学习过程,显式,知识积累,多级结构,时限,可信度,智能表,表达方式,知识驱动,知识推理,基本要素,视觉概念,视觉关系,一框,可溯源,结构化表达,体知,知识关联,智能推理,表达能力,补能
AB值:
0.30146
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。