题名面向典型视频分析任务的注意力建模方法
作者董文恺
答辩日期2022-05-22
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师谭铁牛 ; 张兆翔
关键词视频分析 注意力机制 行人搜索 行为识别 视频目标检测
学位专业模式识别与智能系统
英文摘要

随着互联网和多媒体技术的快速发展,以及智能手机等便携移动终端的迅 速普及,视频数据呈现出爆炸式的增长。如何利用视频数据为人类的生产生活服 务成为一项日益重要的研究课题。对视频中的内容进行分析,是数据智能应用中 的一个基础而又必不可少的环节,并在诸如智能视频监控、自动驾驶、人机交互 和活体检测等领域具有广泛的应用价值和发展前景。

虽然深度学习方法极大地促进了视频分析的发展,但其在处理视频分析任 务时仍然面临着一些问题和挑战。一方面,由于视频中与任务无关的信息的干 扰,现有方法难以有效地利用关键信息来准确地识别目标或其行为。另一方面, 由于运动模糊以及相机失焦等因素,视频中一些图像帧的观测质量较低,导致 难以对其内容进行准确分析,解决这个问题的关键是如何利用视频中丰富的冗 余时空信息来增强低质量图像特征的语义表达能力。作为一种生物启发的方法, 注意力机制可以帮助视觉模型有选择性地关注和利用视频中与任务相关的信息。 因此,以基于深度学习的视频分析方法为基础,本文针对上述挑战,结合注意力 建模方法对视频分析中的行人搜索、行为识别和视频目标检测等任务展开研究。 本文的主要成果如下:

1. 本文提出了一种面向两阶段行人搜索的空间注意力建模方法。针对过多 的候选行人会影响行人搜索的问题,本文提出了实例导向的行人检测网络。通过 互相关层将目标行人的信息融入检测网络,该网络能够利用空间注意力来关注 场景中的目标行人并输出各候选区域与目标之间的相似度。为了将目标信息更 高效地融入检测网络,本文提出了改进的互相关层来解决原有互相关层导致的 模型参数分布不均衡的问题。网络还使用了局部关系模块和全局关系分支来分 别建模场景中不同区域间的局部关系和目标与场景之间的全局关系。实验结果 表明该方法可以通过减少候选行人的数量来提升行人搜索的性能,在常用行人 搜索数据集上取得了同期较好的效果。

2. 本文提出了一种面向单阶段行人搜索的空间注意力建模方法。针对场景 中干扰信息导致行人身份特征判别力低的问题,本文利用空间注意力来使模型 更关注场景中的行人并提出了双向交互网络。该方法在现有单阶段行人搜索模

型上添加了以行人图片为输入的实例感知分支。同时,为了保持两个分支对相同 行人输出一致的响应,该方法还引入了两种交互损失函数来分别实现特征层面 和预测层面上的一致性。实验结果表明该方法能有效地使模型关注场景中的行 人信息并学习更有判别力的身份特征,从而显著提升行人搜索性能,并且在常用 数据集上的准确率高于同期其他方法。

3. 本文提出了一种面向行为识别的时间注意力建模方法。针对视频中的无 关信息导致视频分类错误的问题,本文提出了利用时间注意力机制来挑选视频 中关键帧的解决思路。该解决思路通过基于硬注意力机制的采样方法挑选视频 中的关键帧同时丢弃其余的无关帧来对视频进行分类。本文将采样关键帧的过 程形式化为马尔可夫决策过程,通过深度强化学习训练用于采样的智能体。同 时,为了更有效地训练智能体,还利用视频标签生成了伪关键帧标签。实验结果 表明该方法能在常用的数据集上提升基于双流模型的行为识别方法的准确率。

4. 本文提出了一种面向视频目标检测的时空注意力建模方法。该方法通过 时空注意力机制在视频中挑选时空信息来改善低质量图像的检测效果。该方法 利用类别外部记忆模块来增强低质量图像中目标特征的高层语义表达,并通过 分数传递模块进一步修正检测结果。记忆模块利用存储着的类别中心特征为目 标特征提供时空信息,有效地解决了同期特征聚合方法对辅助帧采样策略敏感 的问题。分数传递模块通过自注意力机制关联不同帧中的物体,将关联边界框 的过程整合进网络的训练过程,解决了现有边界框关联方法中的局部最优问题。 实验结果表明该方法能够显著改善低质量图像的检测效果,并且在大规模视频 目标检测数据集上取得了很好的效果。

语种中文
页码140
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48635]  
专题自动化研究所_智能感知与计算研究中心
推荐引用方式
GB/T 7714
董文恺. 面向典型视频分析任务的注意力建模方法[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace