题名视频中的文本检测与跟踪方法研究
作者张峻博
答辩日期2023-05-27
文献子类硕士
关键词视频文本检测 文本跟踪 BiRViT-1K 鲁棒特征表示 Transformer
英文摘要

从图像和视频场景中获取文本信息是一项重要的研究课题。与图片相比,视频具有丰富的时序信息,并且场景的复杂度更高,经常存在运动模糊、光照变化、视角抖动等问题,使得其中的文本检测和识别更加具有挑战性。本文研究视频中的文本序列检测问题,即视频文本检测和跟踪任务。主要研究内容和成果如下:

1.构建并发布了一个大规模的双语路景视频文本数据集BiRViT-1K,同时提供了精确的标注信息,可以用于视频文本检测、跟踪、识别任务。本文在数据集上进行了文本检测和文本跟踪的基准实验,以促进视频文本处理相关领域研究工作的进展。数据集的下载地址为\url{http://www.nlpr.ia.ac.cn/databases/CASIA-BiRViT1K/}。

2.提出了一种基于鲁棒特征表示的视频文本检测方法。该方法在关注文本自身特征的同时,利用空间上相邻文本之间稳定的相对位置信息构建了拓扑特征,并且设计了一个自适应特征融合网络来动态融合文本的多类特征,构建鲁棒的文本特征表示,从而提高了模型的文本检测和文本跟踪性能。在多个视频文本数据集上的实验表明,该方法可以更加准确、稳定地检测和跟踪文本实例。

3.提出了一个基于序列Transformer的端到端视频文本检测模型。该模型将视频文本检测和跟踪任务看做是一个序列解码问题,建模文本实例的长时序上下文依赖关系,并通过序列预测方式来并行解码检测和跟踪任务。模型无需设置锚点、非极大值抑制、跟踪匹配分支等组件,极大简化了模型的框架。在多个视频文本数据集上的实验证明,该方法通过引入视频中的长时序信息提高了文本检测和跟踪的性能。同时,该模型可以无缝应用到场景文本检测任务中,首次实现了场景文本检测和视频文本检测跟踪两个任务的统一,在多个场景数据集上取得了先进的文本检测性能。

语种中文
学科主题人工智能 ; 模式识别
页码90
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52113]  
专题自动化研究所_模式识别国家重点实验室_模式分析与学习团队
通讯作者张峻博
推荐引用方式
GB/T 7714
张峻博. 视频中的文本检测与跟踪方法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace