CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于文本和图像类别对应的跨模态检索研究
作者曾志雄
答辩日期2023-05-21
文献子类博士
关键词跨模态检索,模态共享与特定信息,模态不平衡数据,模态信息语义交互,一致性与选择性优化
英文摘要

跨模态检索旨在通过一种模态的查询来检索另一种模态中语义相关的样本,从而满足用户通过网络社交媒体便捷获取多模态数据的需求。跨模态检索需要建立从一种模态数据到另一种模态数据之间的语义关联,相对于传统的单一模态场景是一项更具有研究挑战的任务。大多数跨模态检索研究以文本和图像两种模态作为对象,可以分为基于文本和图像一一对应的跨模态检索和基于文本和图像类别对应的跨模态检索。由于基于文本和图像类别对应的跨模态检索可以充分利用语义类别信息,为文本和图像提供丰富的跨模态对应关系,因而更贴近实际应用场景中文本和图像多对多关联的复杂场景。本论文聚焦基于文本和图像类别对应的跨模态检索开展研究。


为了克服跨模态语义鸿沟带来的研究挑战,现有跨模态检索方法主要通过多模态表示学习将多模态数据投影到公共表示空间中进行相似性计算,然后设计有效的多模态度量优化算法来保留模态不变性和语义区分性。然而,现有工作在以下方面存在不足。在多模态数据分布上,现有工作尚缺少对文本和图像的局部关联性问题和模态不平衡问题的考虑;在多模态表示学习上,现有工作忽略了检索数据的未知类别推理和不同模态信息的语义交互;在多模态度量优化上,现有工作采用简单组合样本-样本关联和样本-类别关联的方式,因而带来训练目标的不一致结合和样本选择的无偏优化问题。为了应对上述跨模态检索存在的不足和挑战,本论文从多模态数据分布、多模态表示学习和多模态度量优化三个角度展开研究,分别提出基于正交分解、基于原型自适应、基于协同聚类和基于嵌入转移的跨模态检索方法。

 

本论文的主要贡献和创新点归纳如下:

1.针对以往研究缺少对文本和图像之间局部关联性问题的考虑,为了对模态共享信息和模态特定信息进行有效区分和利用,提出一种基于正交分解的跨模态检索方法。该方法首先通过正交约束明确区分模态共享和模态特定的特征,而后提出结构保留损失以最大化模态共享特征的共性和模态特定特征的差异性,最后设计模态内区分性损失和模态间不变性损失来学习多模态数据之间的语义关联。通过实验验证了所提出方法的有效性。

2.针对以往研究忽略了现实应用中存在模态不平衡训练数据和未知类别检索数据的问题,为了增强跨模态检索应用的鲁棒性,提出跨模态检索的鲁棒性问题并提出一种基于原型自适应的跨模态检索方法。该方法通过将原型学习引入到跨模态检索任务中,利用跨模态共享的语义原型表示每个语义类别,为不同类别提供判别信息以自适应地学习跨模态表示;在此基础上,提出原型传播网络和原型推理网络用于生成模态平衡的训练数据和识别未知类别的检索数据。通过实验验证了所提出方法的有效性,以及在模态不平衡数据和未知类别查询下的鲁棒性。

3.针对以往研究忽略了不同模态信息的语义交互问题,为了对多模态数据的语义关联信息进行有效融合并加以利用,提出一种基于协同聚类的跨模态检索方法。该方法首先采用随机概率转移在具有一致语义的多模态语义图上进行随机游走,使得模态特定的网络能够处理具有一致标签的多种模态信息以改进语义交互;在此基础上,提出对比聚类损失用于促进优化过程中多模态数据间的语义交互,同时引入类内和类间距离裕度以增强训练的灵活性。实验结果表明该方法优于对比方法。

4.以往研究采用简单组合样本-样本关联和样本-类别关联的方式,带来训练目标的不一致结合和样本选择的无偏优化问题,因而对多模态关联信息的利用不足,导致跨模态检索的低效性。为此,提出一种基于嵌入转移的跨模态检索方法。该方法将基于样本-样本关联的成对学习和基于样本-类别关联的成类学习统一在一个新的多模态嵌入转移框架中,并将多模态嵌入向量的相对亲和度作为知识实现成类和成对学习之间的迁移;进而利用迁移的知识设计嵌入转移策略对多模态样本进行选择性优化,并提出软对比损失来学习模态不变和语义区分的向量表示。实验结果表明该方法明显优于传统简单结合成类和成对学习的方法,显著地提高了文本和图像的类内和类间语义区分。

语种中文
页码120
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52038]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
曾志雄. 基于文本和图像类别对应的跨模态检索研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace