CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名面向自然人机交互的语言-视觉物体定位方法研究
作者李钱钟
答辩日期2022-05-25
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师赵晓光
关键词自然人机交互 零样本物体检测 自然语言-图像指代表达理解 自然语言-视频指代表达理解
学位名称工学博士
学位专业控制理论与控制工程
英文摘要

近年来,人工智能技术的飞速发展带动了人机交互方式的不断变革,由采用鼠标、键盘等设备辅助的传统交互方式,向自然语言、手势、表情等更接近于人与人之间交流的自然人机交互方式发展。凭借表达的便捷性及多样性,服务机器人常采用自然语言作为交互方式,实现自然、舒适的人机交互体验。面对这种交互方式,机器人如何理解语音、文字等内容与场景间的关系,确定交互中涉及的对象,完成对人的服务过程,是提高人与服务机器人之间自然人机交互质量的关键。而语言-视觉物体定位技术的目的是根据自然语言文本对视觉图像中所指代的物体进行定位。为此,本文研究了自然人机交互中的语言-视觉物体定位方法,以提升服务机器人的交互能力。

本文通过解决人机交互系统因交互场景变化产生的交互对象类别泛化、交互语句形式由显性指代向隐性指代描述的延展和交互对象由静态定位至动态定位的扩展问题,逐步研究了零样本物体检测、自然语言-图像指代表达理解和自然语言-视频指代表达理解任务,并构建了自然人机交互系统予以应用。论文的主要内容与贡献如下:

1.针对交互场景中未训练物体的检测问题,提出了一种基于软加余量焦点损失(Softplus Margin Focal Loss)的零样本物体检测方法。该方法设计了一种基于一维卷积的类别语义-视觉映射机制,有效缓解了零样本学习中的枢纽度问题,减少了模型参数,并通过解码器的重构损失函数约束编码器的构建过程。针对分类分支中视觉特征和被映射的语义特征在视觉空间的对齐问题,提出了一种软加余量焦点损失函数,在维持焦点损失解决类别不平衡问题特性的同时,增强正负类别映射特征的区分度,区分图像的前景与背景。在此基础上,进一步提出了一种融合语义信息输入的定位分支,并设计了可训练矩阵进行特征对齐。所提方法在四个公共数据集进行了实验,结果验证了方法的有效性。

2.针对自然语言-图像指代表达理解与分割问题,提出了交叉模态协同网络算法。算法采用注意力感知的表示学习模块对图像及语言描述进行模态特征学习,通过引入语言自注意力子模块,建立语言描述的内在关系并学习语言特征;设计了语言引导的通道-空间注意力子模块,突出图像中指代表达相关的区域,抑制背景干扰,获得语言感知的视觉特征。针对模态特征融合问题,设计了一种交叉模态协同模块,在语义和空间维度上构建两模态间的协同关系。在此基础上,基于特征选择策略,提出了一种多尺度特征融合模块,聚合多尺度特征中所指物的相关信息,生成指代预测结果。所提模型在四个公共数据集上进行了实验,结果验证了模型的有效性。

3.针对自然语言-视频指代表达理解问题,提出了一种多阶段的图像-语言交叉生成融合网络方法。该方法设计了帧密集特征聚合模块,通过相邻时序内的视频帧辅助关键帧的特征学习,保证所指物定位在视频前后帧中的一致性。针对特征融合问题,提出了一种图像-语言交叉生成融合模块,将其作为多阶段学习的主体,该模块通过图像-语言相似度生成跨模态特征,并对所得图像、语言模态特征进行精细化融合。为了增强模型的跨模态特征生成能力,设计了所指物定位和语言表达特征的一致性损失函数,对特征生成中的图像-语言相似度和语言-图像相似度矩阵进行约束。所提方法在三个公共数据集上进行了实验,结果验证了方法的有效性。

4.针对自然人机交互问题,设计了一个基于语言-视觉物体定位的自然人机交互系统,并搭建了一个由硬件与软件系统组成的服务机器人交互平台进行系统实现。针对交互系统的交互场景由固定物体类别向新物体类别迁移的问题,利用零样本物体检测方法构建了基于物体类别名匹配的人机交互系统,通过模型由“可见”类别向“未见”类别的性能迁移解决该问题。为了解决以物体类别名匹配确定交互对象的局限性问题,采用直接建立物体与描述语句间关系的方式,构建了基于自然语言-图像指代表达理解的人机交互系统,使交互系统能够处理不涉及物体类别的隐性指代语句形式。针对运动状态下所指物的定位问题,构建了基于自然语言-视频指代表达理解的人机交互系统,增强系统的准确性和鲁棒性。所开展的人机交互实验结果验证了该人机交互系统的可行性及有效性。

语种中文
学科主题机器人控制 ; 人工智能理论 ; 自然语言处理 ; 模式识别
页码156
资助项目National Natural Science Foundation of China[61333016]
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48487]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
李钱钟. 面向自然人机交互的语言-视觉物体定位方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace