题名基于图像与点云的视觉场景语句描述方法研究
作者于强
答辩日期2021-09-16
文献子类博士
授予单位中国科学院大学
授予地点中国科学院大学
导师潘春洪
关键词视觉场景语句描述 属性特征提取 密集点卷积 区域关联 多模态视觉融合
学位专业模式识别与智能系统
英文摘要

随着互联网的快速发展和移动智能设备、三维扫描设备的逐渐普及,以图像和点云为主的视觉数据正在以爆发式速度不断增长。如何挖掘视觉数据中的有效信息已成为当前亟待解决的问题。作为一种重要的视觉场景理解方法,视觉场景语句描述的任务是对给定的视觉数据(如图像、点云)生成一段描绘视觉场景中所关注内容的自然语句。但是,视觉数据量庞大,视觉内容关系错综复杂;同时,视觉与文本存在跨模态语义差异。因此,视觉场景语句描述存在诸多需要进一步解决的技术难题。

面向图像和点云数据,本文研究单模态和多模态融合条件下的视觉场景语句描述方法,为相应条件下的相关应用提供技术思路。针对视觉场景语句描述中的难点问题,分别从图像场景实体/抽象概念属性提取、点云卷积操作构造和“图像-点云”语义融合的角度,结合自然语言模型,开展视觉场景语句描述深度学习模型构造、模型训练与实验验证等工作。具体地,本文的主要贡献包括以下三点:

1. 提出一种基于特征精炼的图像属性提取模型。该模型包含三个改进的模块:属性精炼模块、单词树状结构模块和特征增强模块。其一,属性精炼模块将已有“名词”(视觉实体)属性特征和卷积视觉特征通过非线性方式映射为“非名词”(抽象概念)属性特征;其二,单词树状结构模块通过树结构将同义名词属性特征映射为相似的属性概率值,从而消除在自然语言层面的语义歧义;其三,特征增强模块在不同尺度的图像特征中检测视觉属性,并为语句生成模型提供更准确的属性值。上述三个模块的联合应用提升了图像语句描述模型的精度。对比实验验证了所提模型的有效性。

2. 提出一种基于密集点卷积操作与多任务学习的点云语句描述模型。该模型首先引入点云卷积网络提取点云高层次抽象视觉特征;然后,构建Transformer编解码器架构,并利用该架构将视觉特征映射为描述语句。同时,为降低视觉特征学习的难度,引入多任务参数共享机制,在多任务学习的框架下联合优化点云语义分割任务和描述语句生成任务。点云语义分割的引入,辅助提升了所构建语句描述模型的特征学习能力,加快了收敛速度;同时,抑制了过拟合问题。最后,针对目前鲜有公开的大规模场景点云语句描述数据集的情形,构建了两个大规模场景点云语句描述数据集。在公开的数据集和自行标注的数据集上验证了所提模型的有效性。

3. 提出一种基于区域关联与注意力的多模态视觉融合语句描述模型。针对图像和点云数据,首先,基于对应的骨干网络,分别引入区域候选框生成模块、候选框融合模块和池化模块,得到图像和点云目标区域候选框及其定长特征。其次,构建区域关联规则和注意力机制,将图像和点云区域特征进行多层深度融合。最后,构建基于Transformer注意力机制的语句描述生成模块,将多层深度融合的视觉特征序列映射为单词或短语序列。所提模型可直接在点云数据上提取特征,避免了重要数据的丢失;同时基于区域关联规则,增加了融合过程的可解释性。实验验证了所提模型的有效性,且其生成的描述语句质量达到了目前最优水平。

语种中文
页码140
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/46622]  
专题自动化研究所_模式识别国家重点实验室_遥感图像处理团队
通讯作者于强
推荐引用方式
GB/T 7714
于强. 基于图像与点云的视觉场景语句描述方法研究[D]. 中国科学院大学. 中国科学院大学. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace