题名鲁棒的自然场景文本检测与识别技术研究
作者李小倩
答辩日期2021-05-26
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师张树武
关键词自然场景 文本检测 文本识别
学位专业模式识别与智能系统
英文摘要

自然场景图像中的文本通常蕴含了明确的、具有针对性的高层语义信息,可 以帮助人们快速地理解图像内容,自然场景文本检测与识别技术研究具有极其重大的理论意义和广泛的应用前景。基于深度学习的文本检测与识别技术取得了不错的性能,随着研究深入,文本检测识别的对象逐渐从水平或多方向文本转向任意形状文本,从单独的文本检测或文本识别转向端到端文本识别技术研究。但自然场景图像文本检测识别仍面临着复杂的背景干扰、文本模糊与退化、字体多样性等众多挑战,有很大的提升空间,其中如何实现鲁棒的任意形状文本检测、文本识别,以及简化端到端文本提取框架,是研究需要重点关注的问题。

论文研究工作主要围绕场景文本检测、场景文本识别以及端到端的场景文本提取技术展开,聚焦在多方向文本、任意形状文本的特征表示、可行有效的训练策略等方面,研究鲁棒的自然场景文本检测和识别模型。论文的主要研究工作与创新点归纳如下:

1. 提出一种基于聚合文本特征的多方向场景文本检测方法

多方向场景文本检测方法通常是基于通用目标的检测方法,它将文本视为特定目标,根据多方向文本特点,设计不同尺度、不同纵横比、不同倾斜角度的锚框。锚框的设计依赖经验且锚框策略中存在冗余计算和不匹配问题,针对该问题,本文提出一种基于聚合文本特征的多方向场景文本检测方法。该方法摒弃锚框设计,利用像素点作为参考点,生成正负样本标签以及文本框坐标偏移相关值。同时,为了提升长文本检测性能,该方法结合自注意力机制和空洞卷积,提出文本特征聚合模块,用于学习较远距离的特征以及融合不同感受野下的卷积特征。该方法的模型是全卷积神经网络,先利用多层堆叠的卷积层提取特征,然后送入文本特征聚合模块获得增强的文本特征,后进入预测层进行类别预测和坐标回归。该方法免除繁琐的锚框设计,实现多尺度、多方向场景文本检测,并在多个公开数据集上进行大量实验,证明方法的有效性。

2. 提出一种基于自适应回归的任意形状场景文本检测方法主流的任意形状场景文本检测方法通常是基于图像分割的方法,虽然具有较好可解释性,但是步骤流程相对繁琐。同时,文本框标注的歧义性限制了任意形状文本框的回归。针对上述问题,为了实现任意形状场景文本检测,本文提出 一种基于自适应回归的任意形状文本检测方法。该方法利用自适应回归损失函数,使得模型可以直接预测文本框坐标相关值,克服了文本框标注的歧义性问题。同时,该方法提出文本实例精度损失函数,在交并比的引导下进一步修正文本框坐标,预测更加精确的文本框。该方法简单有效,保持了较好的推理速度, 且在公开数据集上取得相当或更好的性能。

3. 提出一种基于注意力机制的场景文本识别方法

基于深度学习的场景文本识别往往需要大量训练数据,由于人工标注成本过高,现有方法通常使用大规模的合成文本数据集作训练集,使用真实文本数据集作测试集。而合成文本训练数据集和真实文本测试数据集之间存在一定偏差,测试集文本风格更加多变,弯曲曲率变化更大,背景更加复杂多变。针对上述问题,本文在主流的序列到序列识别模型的基础上,从数据层面和特征层面入手,提出一种更加鲁棒有效的基于注意力机制的场景文本识别方法。针对数据层面,该方法利用 S-形形变对训练数据进行变换,丰富训练数据的文本曲率变化,以增强泛化性能。针对特征层面,该方法结合实例归一化和批归一化,应用实例-批归一化模块,学习风格不变性特征,提升模型识别准确率。该方法在规则文本和不规则文本公开数据集上取得相当或更好的识别精度。

4. 提出一种基于弱监督学习的端到端场景文本提取方法

现有场景文本提取方法大多是两阶段的,将检测任务和识别任务独立训练,然后以级联的方式提取文本,忽略检测和识别高度相关又互补的关系。同时,在端到端文本提取模型中,如何有效地整合文本检测和文本识别,也是研究中值得关注的。基于此,本文提出一种基于弱监督学习的端到端场景文本提取方法。该方法的模型包含共享特征模块、特征映射模块、检测分支以及识别分支。检测分支和识别分支共享卷积特征,并通过特征映射模块实现检测分支和识别分支的连接,充分利用检测和识别高度的关联性。检测分支以弱监督学习的方式获得伪标签数据,用于参数学习,这种方式减轻模型对真实数据集的文本框标注依赖。该方法的有效性在多个公开数据集上得到验证。

语种中文
页码140
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/45005]  
专题数字内容技术与服务研究中心_新媒体服务与管理技术
推荐引用方式
GB/T 7714
李小倩. 鲁棒的自然场景文本检测与识别技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace