视频中的文本检测与跟踪方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 模式识别国家重点实验室 > 模式分析与学习团队

题名	视频中的文本检测与跟踪方法研究
作者	张峻博
答辩日期	2023-05-27
文献子类	硕士
关键词	视频文本检测文本跟踪 BiRViT-1K 鲁棒特征表示 Transformer
英文摘要	从图像和视频场景中获取文本信息是一项重要的研究课题。与图片相比，视频具有丰富的时序信息，并且场景的复杂度更高，经常存在运动模糊、光照变化、视角抖动等问题，使得其中的文本检测和识别更加具有挑战性。本文研究视频中的文本序列检测问题，即视频文本检测和跟踪任务。主要研究内容和成果如下： 1.构建并发布了一个大规模的双语路景视频文本数据集BiRViT-1K，同时提供了精确的标注信息，可以用于视频文本检测、跟踪、识别任务。本文在数据集上进行了文本检测和文本跟踪的基准实验，以促进视频文本处理相关领域研究工作的进展。数据集的下载地址为\url{http://www.nlpr.ia.ac.cn/databases/CASIA-BiRViT1K/}。 2.提出了一种基于鲁棒特征表示的视频文本检测方法。该方法在关注文本自身特征的同时，利用空间上相邻文本之间稳定的相对位置信息构建了拓扑特征，并且设计了一个自适应特征融合网络来动态融合文本的多类特征，构建鲁棒的文本特征表示，从而提高了模型的文本检测和文本跟踪性能。在多个视频文本数据集上的实验表明，该方法可以更加准确、稳定地检测和跟踪文本实例。 3.提出了一个基于序列Transformer的端到端视频文本检测模型。该模型将视频文本检测和跟踪任务看做是一个序列解码问题，建模文本实例的长时序上下文依赖关系，并通过序列预测方式来并行解码检测和跟踪任务。模型无需设置锚点、非极大值抑制、跟踪匹配分支等组件，极大简化了模型的框架。在多个视频文本数据集上的实验证明，该方法通过引入视频中的长时序信息提高了文本检测和跟踪的性能。同时，该模型可以无缝应用到场景文本检测任务中，首次实现了场景文本检测和视频文本检测跟踪两个任务的统一，在多个场景数据集上取得了先进的文本检测性能。
语种	中文
学科主题	人工智能 ; 模式识别
页码	90
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/52113]
专题	自动化研究所_模式识别国家重点实验室_模式分析与学习团队
通讯作者	张峻博
推荐引用方式 GB/T 7714	张峻博. 视频中的文本检测与跟踪方法研究[D]. 2023.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们