题名标注受限视频人体行为理解模型与算法研究
作者李定
答辩日期2023-05-21
文献子类博士
关键词标注受限 人体行为理解 主动学习 视频片段检索 自监督学习
英文摘要

数字视频作为重要的视觉信息载体,已广泛地应用于生活的方方面面。海量
视频数据中的大多数内容都与人体行为相关,真实反映了人们的日常生产生活
状态。依靠视频数据对人体行为进行理解和分析,对于推动社会进步、创建美好
生活具有重要的意义。近年来,人体行为视频数量激增、内容日趋复杂,以往依
靠先验知识设计规则处理人体行为数据的方法已无法满足当前应用的需求,如
何自动化地挖掘人体行为视频中的潜在信息并对其理解是亟待解决的难题。在
这一背景下,基于计算机视觉的模式识别技术和机器学习算法得到了广泛的研
究和应用,人体行为理解正成为计算机视觉研究领域的热点问题。然而,现有的
人体行为理解方法需要消耗庞大的人力物力资源对训练数据进行手工精细标注,
整体标注过程步骤繁琐、成本高昂。这催生出一个重要的研究课题:如何在标注
受限情境下训练模型进行人体行为理解,利用尽可能少的标注成本实现令人满
意的行为分类和行为定位性能。
本文聚焦于标注受限视频人体行为理解这一主题,从标注成本的来源出发,
将标注受限情境具体细分为标注短缺、弱标注和无标注三种情境;依托时序行为
定位、行为片段检索和骨架行为识别三项具体任务,研究如何充分挖掘利用标
注和原始数据中的监督信息,尝试构建适用于上述情境的行为分类和定位模型。
本文的创新性研究成果主要有:
1. 提出了一种主动式半监督时序行为定位模型AL-STAL。针对随机标注法
忽略样本标注价值差异性的问题,构建了行为片段主动时序定位框架,仅依靠少
量标注数据,驱动模型主动发现高标注价值的样本,渐进式地完成样本标注和
模型训练;以备选片段类别分布熵值为基础,设计了一种样本筛选判据TPE,根
据行为分类的不确定性为不同样本划分合理的标注优先级;结合行为视频片段
的时序特性,提出了一种基于时序上下文不一致性的样本评价方式TCI,利用行
为片段上下文关系评估当前样本的标注价值;在三个时序行为定位基准数据集
(THUMOS’14、ActivityNet 1.3 和ActivityNet 1.2)上得到的实验结果显示,所提方法一方面在同等标注预算下可实现更优的定位性能,另一方面仅需更少的标注即可达到同等定位性能。
2. 提出了一种视频片段多尺度2D 表示学习模型MS-2D。针对时序边界标
注缺失时行为片段质量评价失准的问题,提出了一种弱监督行为片段评价网络,
充分挖掘备选片段上下文关联关系,仅依靠与整段视频相匹配的文本描述,即可
驱动模型检索得到符合语义的行为片段;针对视频样本“语义相似但时序尺度
相差较大”的情形,提出了一种多尺度2D 时序特征图,利用不同尺度的时序采
样尽可能多地涵盖时长多变的行为片段;为保障模型正常训练,提出了一种文
本重建引导的交叉熵损失函数RG-BCE Loss,依据重建文本的质量生成伪标签,
为行为片段评价提供监督信息;在两个行为片段检索基准数据集(Charades-STA和ActivityNet-Captions)上获得的实验结果表明,所提方法可有效提升弱监督行为片段检索性能。
3. 提出了一种跨数据流自监督骨架行为识别模型CSCLR。针对单数据流正
样本对过于相似导致代理任务易于完成的问题,提出了跨流对比学习方法,利
用不同数据流蕴含的信息差异在对比学习代理任务中引入了更困难的正样本对,
有效提升了模型对复杂运动模式的理解能力;在数据增强之外,提出了一种合成
新正样本对的特征变换策略PFT,在特征层面有效增大了正样本对之间的差异,
进一步增强了对比学习功效;CSCLR 利用线性、微调和半监督三种评测模式在
三个行为识别的基准数据集(NTU-60、NTU-120、PKU-MMD)上进行了实验验证,结果表明所提出的跨数据流自监督模型可以显著增强骨架行为特征的判别
性,有效提升下游任务识别性能。

语种中文
页码130
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52217]  
专题精密感知与控制研究中心_人工智能与机器学习
推荐引用方式
GB/T 7714
李定. 标注受限视频人体行为理解模型与算法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace