题名 | 视频中的文本检测与跟踪方法研究 |
作者 | 张峻博 |
答辩日期 | 2023-05-27 |
文献子类 | 硕士 |
关键词 | 视频文本检测 文本跟踪 BiRViT-1K 鲁棒特征表示 Transformer |
英文摘要 | 从图像和视频场景中获取文本信息是一项重要的研究课题。与图片相比,视频具有丰富的时序信息,并且场景的复杂度更高,经常存在运动模糊、光照变化、视角抖动等问题,使得其中的文本检测和识别更加具有挑战性。本文研究视频中的文本序列检测问题,即视频文本检测和跟踪任务。主要研究内容和成果如下: 1.构建并发布了一个大规模的双语路景视频文本数据集BiRViT-1K,同时提供了精确的标注信息,可以用于视频文本检测、跟踪、识别任务。本文在数据集上进行了文本检测和文本跟踪的基准实验,以促进视频文本处理相关领域研究工作的进展。数据集的下载地址为\url{http://www.nlpr.ia.ac.cn/databases/CASIA-BiRViT1K/}。 2.提出了一种基于鲁棒特征表示的视频文本检测方法。该方法在关注文本自身特征的同时,利用空间上相邻文本之间稳定的相对位置信息构建了拓扑特征,并且设计了一个自适应特征融合网络来动态融合文本的多类特征,构建鲁棒的文本特征表示,从而提高了模型的文本检测和文本跟踪性能。在多个视频文本数据集上的实验表明,该方法可以更加准确、稳定地检测和跟踪文本实例。 3.提出了一个基于序列Transformer的端到端视频文本检测模型。该模型将视频文本检测和跟踪任务看做是一个序列解码问题,建模文本实例的长时序上下文依赖关系,并通过序列预测方式来并行解码检测和跟踪任务。模型无需设置锚点、非极大值抑制、跟踪匹配分支等组件,极大简化了模型的框架。在多个视频文本数据集上的实验证明,该方法通过引入视频中的长时序信息提高了文本检测和跟踪的性能。同时,该模型可以无缝应用到场景文本检测任务中,首次实现了场景文本检测和视频文本检测跟踪两个任务的统一,在多个场景数据集上取得了先进的文本检测性能。 |
语种 | 中文 |
学科主题 | 人工智能 ; 模式识别 |
页码 | 90 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/52113] |
专题 | 自动化研究所_模式识别国家重点实验室_模式分析与学习团队 |
通讯作者 | 张峻博 |
推荐引用方式 GB/T 7714 | 张峻博. 视频中的文本检测与跟踪方法研究[D]. 2023. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论