“苏集创”18新利体育 创新成果推介(42)——开放世界下的目标行人检索系统

发布者:柳鑫发布时间:2023-03-29浏览次数:10

“苏集创”是依托18新利体育 国家技术转移中心(18新利体育 知识产权运营中心),紧密围绕苏州产业创新集群布局,以18新利体育 等国内外知名高校、科研院所、技术创新中心的集成创新成果为标的,构建科技、产业、资本深度融合的成果发布平台。


本期向大家推介的是18新利体育 计算机科学与技术学院(软件学院)曹敏博士团队的项目:开放世界下的目标行人检索系统


曹敏博士,18新利体育 计算机科学与技术学院(软件学院),主要研究方向:模式识别、跨模态检索、行人重识别


开放世界下的目标行人检索系统

技术成熟度:研制

专利情况:

1.陈晨,曹敏,胡晰远,彭思龙,中国科学院自动化研究所,基于排序度量函数的行人重识别方法、系统、装置, 201811395133.8

2.曹敏,丁聪,张民;一种融合上下文信息的行人重识别方法及系统;发明专利授权;ZL202110722073.1


成果简介:

目标行人检索是人工智能研究领域的一项重要研究工作,也是视频侦查工作中的常见任务。目前,相关的研究工作大多基于封闭世界的假设, 距离开放世界下的应用还有一定的距离。为此,本项目充分考虑到开放世界中存在目标行人信息获取具有局限性、数据噪声大、检索效率要求高等特点,开发出一套开放世界下的目标行人检索系统。该系统支持基于视频图像和文本描述的两种检索方式,通过对海量视频数据的深入分析,达到快速检索目标行人的目的。本项目具有较高的创新性,可以有效地应对开放世界下存在的种种挑战,适合应用在各种相关的实际任务中,可以发展落实在视频和文本相应领域的产品功能中(如海康威视的视侦通视频工具集的视频分析产品功能等)。因此本成果具有科学价值和现实价值,具有重要的研究意义。


图1 系统主要流程示意图


创新要点:

❶ 考虑到开放世界下的应用,本系统支持基于视频图像的行人检索方式和基于文本描述的行人检索方式。

❷ 针对行人图像中存在噪声问题的解决,现有的大部分研究工作致力于行人图像自身信息的充分挖掘,少数研究工作通过累加,平均等简单操作融合其他图像信息,作为行人图像自身信息的互补信息。不同于这些方法,本系统从时空特征层面和个人特征层面深度探索样本的上下文信息,并利用图神经网络和注意力机制技术实现行人图像自身信息和上下文信息的有效融合,作为行人图像的最终特征表达。

❸ 针对文本描述中存在噪声问题的解决,研究人员大多通过借助额外的模型挖掘行人文本描述和视频图像的细粒度信息并完成细粒度层面的对齐,本系统借鉴多头注意力机制技术,高效实现准确的细粒度对齐。

❹ 针对检索效率的问题,研究人员提出基于ANN的方法来实现快速高效的检索,不同于这些方法,本系统利用倒排索引技术实现快速高效的检索,该检索方法具有高性能、可解释性强、低耗、高效的特点。


技术指标:

通常来说,使用的技术指标有Rank-1(表示返回的第一个内容是正确的准确率)和mAP(表示所有与查询相匹配的内容被正确查找到的总体准确率)。