“苏集创”是依托18新利体育 国家技术转移中心(18新利体育 知识产权运营中心),紧密围绕苏州产业创新集群布局,以18新利体育 等国内外知名高校、科研院所、技术创新中心的集成创新成果为标的,构建科技、产业、资本深度融合的成果发布平台。
本期向大家推介的是18新利体育 计算机科学与技术学院(软件学院)孙铭杰副教授团队的项目:基于多模态信息的目标追踪一体化模型
孙铭杰副教授,18新利体育 计算机科学与技术学院(软件学院)副教授、硕士生导师,主要研究方向:多模态信息处理,研究领域:计算机视觉、多模态技术、强化学习
基于多模态信息的目标追踪一体化模型
成果简介:
多模态目标追踪是多模态任务中的一项关键技术,也是很多相关下游任务的“指挥棒”,目的是根据目标的指示信息(视频第一帧目标的标签)在视频流中持续追踪目标(逐帧输出追踪结果)。其中,目标的指示信息可以以一种或多种模态的形式提供,例如目标的语言描述、边界框图片、掩膜图片等等。追踪模型会拆解提示信息并抽象出目标的高层次特征,与视频帧中的背景区域或干扰物体进行比对,从而找到对应的目标并输出跟踪结果。追踪模型还需要时刻关注目标在视频中的变化,包括位置移动、动作变形等等,及时更新目标的特征,最终完成整个视频流的目标跟踪任务。
目前,多主流的多模态目标追踪模型的通用性却不高,主要表现为单个模型只能应对某个特定模态的指示信息,当要处理涉及不同模态信息的场景时,需要使用多个模型才能完成任务,且无法处理多种模态信息共存的情况。
本项科技成果着眼于多模态目标追踪的统一框架,该框架立足于两个层面的统一:其一为上层结构(输入输出)的统一,包括对不同模态输入(语言模态、图片模态)的统一建模方式,以及对不同精度追踪结果(位置点、边界框、掩模图)的统一输出方式;其二为内部模块的统一,包括对不同模态特征的统一优化方式,以及对不同模态信息重点区域的统一预测方式。
图一. 通过不同模态的信息对目标进行定位和追踪。左图分别为三种不同模态的提示信息的示例:语言描述、边界框图、掩模图。右图为该目标在视频中的定位与追踪结果。
创新要点:
❶ 设计了一种基于Transformer结构的多模态输入信息的统一建模方式;
❷ 引入了拓扑学中经典的持续同调性图和多维单纯形结构,对不同模态特征提取出结构相似的上层信息,实现了不同模态特征的统一优化;
❸ 使用强化学习模型,将不同模态的初始区域进行逐步扩大,从而以统一的方式实现不同模态信息的重点区域的预测;
❹ 采用极坐标的形式,对不同精度的模型输出进行统一表示,从而使单一模型能够通过调整激活参数量的大小而动态调节模型的输出精度。
技术指标:
预期在三个主流的多模态目标追踪任务(基于语言的追踪、基于边界框的追踪、基于掩模图的追踪)上均达到最高的性能表现。