CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名跨媒体交流系统中的语义关联关键技术研究
作者孙超
学位类别工学博士
答辩日期2015-05-29
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师徐常胜
关键词跨媒体 语义关联 动词宾语概念 手语识别 cross-media semantic association verb-object concept sign language recognition
其他题名Semantic Association in Cross-media Communication System
学位专业模式识别与智能系统
中文摘要随着互联网的兴起和发展,即时交流系统因为其便捷特性,一直在人们的网络活动中扮演着重要的角色。虽然目前传统的即时交流系统已经广泛流行,但它们基本上都是基于单模态或者单媒体来进行交流。无论是早期的基于纯文本的交流形式,还是后来引入的基于语音或者视频的交流形式,其中的信息均是以单模态或者单媒体的形式进行传播,不同模态或者不同媒体之间的信息不能进行相互的传递或者互补。这种信息的传播方式,在应对具有不同语种用户或者具有不同语言形式的用户时,因其无法对不同媒体形式表达的语义进行关联,往往无法使这类用户正常的进行交流。例如,使用不同语种的两个用户往往会因为无法理解对方的文本信息而无法交流,而一个使用手语的听力障碍用户与一个正常人用户之间也会因为无法理解对方的语义表达而无法交流。 但是,如果能够对不同媒体信息之间进行跨媒体语义关联,则可以很好的弥补单媒体交流的缺陷。例如,针对使用不同语种的用户,可以将文本信息翻译成双方都可以理解的图像信息,而针对使用手语表达的用户,则可以将手语视频翻译成对方可以理解的文本信息。这种跨媒体的翻译的基础就是跨媒体语义关联技术。因此,如何针对交流系统中的不同模态或者不同媒体的信息进行跨媒体语义关联,从而满足具有不同语种或者不同语言形式的用户的需求,则成为了一项必要的研究内容。 跨媒体语义关联是跨媒体交流系统的最核心的技术,其中包含了图像与文本的语义关联、视频与文本的语义关联、语音与文本的语义关联等不同部分。在本文中,我们重点关注其中的两种类型的语义关联技术,即图像与文本的语义关联,和手语视频与文本的语义关联。针对跨媒体交流系统中的这两种类型的语义关联技术,本文主要进行了以下几个方面的研究工作: 基于非负层级图嵌入的动词宾语概念的图像分类。我们利用基于“动词-宾语”结构图片中所包含的层级结构信息,提出了一种层级非负图嵌入的方法,对“动词- 宾语”结构图片进行了有效的特征提取和编码,使基于“动词-宾语”结构图片的分类取得了良好的效果。 基于贝叶斯模型的动词宾语概念的图像重标注。针对传统图片标注技术在“动词-宾语”结构图片标注上的问题和缺陷,我们利用“动词-宾语”结构图片中的人体与物体的交互动作所包含的语义,提出了一种基于贝叶斯网络的重标注方法,该方法能在“动词-宾语”结构图片不准确的标签的基础上,正确的重标注出图片所应有的“动词-宾语”结构的标签。 基于判别样本编码的手语识别。我们利用手语视频中某些帧比其它帧具有更高判别性的特性,采用基于判别样本的分类器和多示例学习的方法对手语识别进行编码,然后对手语视频进行有效的分类和识别。该方法不仅能有效的对手语视频进行分类和识别,同时还能准确的学习出手语视频中最具有判别力的帧。 基于隐支持向量机的手语识别。我们在手语视频关键帧的基础上,利用隐变量对具有判别力的帧进行标注,然后采用隐支持向量机训练基于手语视频的分类器,分别对单词级别的手语和语句级别的手语进行识别。该基于隐支持向量机的识别模型不仅能有效的对单词级别和语句级...
英文摘要With the prosperity of Internet technologies, instant communication systems play an important role in human daily network activities, due to their convenience. Although being widespread, the existing instant communication systems are generally working based on single modality or single media. No matter the text-based communication, or the speech-based and video-based communications, all the information within them are spread in the form of single modality or single media. The information from different modalities or media could not benefit each other. If people use different kinds of languages or different forms of languages in communication systems, this mode of information spreading may fail to work, as it could not associate the semantic information in different modalities. For example, two users with different languages can not normally communicate with each other as they can not understand each others' text information, a normal user can not normally communicate with a deaf-mute user as they can not understand each others' semantic meaning. However, If we can conduct cross-media semantic association between different media, we can overcome the defects in communication with single-media. For example, for two users with different languages, we can translate the text information into the image which could be intuitively understood by each user, and for deaf-mute users, we can translate the sign language into text information. The fundamental technology of cross-media translation is cross-media semantic association. Hence, to conduct cross-media semantic association between different modalities or media in communication system to meet the requirements of users with different kinds of languages or different forms of languages is very significant. Cross-media semantic association is the key method in cross-media communication systems. It consists of semantic association between image and text, semantic association between video and text, semantic association between speech and text, and so on. In our work, we focus on two kinds of semantic association technologies, which are semantic association between image and text, and semantic association between sign language video and text. Aiming at these two kinds of semantic association technologies, we mainly conduct the following research: Verb-Object concept image classification with inductive hierarchical non-negative graph embedding. We utilize the hierarchical structure in verb-object concept images, and...
语种中文
其他标识符201018014628057
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/6733]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
孙超. 跨媒体交流系统中的语义关联关键技术研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2015.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace