面向知识图谱的关系发现关键技术研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	面向知识图谱的关系发现关键技术研究
作者	纪国良
答辩日期	2017-05-24
授予单位	中国科学院大学
授予地点	北京
导师	赵军
关键词	知识图谱关系发现表示学习弱监督关系抽取卷积神经网络
英文摘要	知识图谱以结构化的形式描述现实世界中的实体以及实体之间的关系，是知识表示的一种重要形式。自2012年5月由Google正式提出以来，已经在查询理解、智能问答、个性化推荐等领域得到了广泛的应用。虽然当前的知识图谱包含了大量的结构化信息，但是现实世界中实体和关系的数量十分庞大，并且大多数知识图谱都以人工协作或者(半)自动化的方式构建，这使得知识图谱还远不完备，其中一个重要的问题是存在大量关系缺失的现象，这在很大程度上限制了它们的可用性。面向知识图谱的关系发现研究正是以解决这个问题为目标。面向知识图谱的关系发现旨在预测知识图谱中缺失的关系，对关系进行补全，其方法主要包含两个方面：一、基于知识图谱中已有的结构化事实进行推理，获得其中缺失的关系；二、从非结构化文本中抽取实体之间的关系，补充到知识图谱中。目前关系发现的研究已经取得了一定的进展。在第一个方面，有传统的基于逻辑规则的推理方法和基于表示学习的推理方法。基于逻辑规则的推理方法容易受到数据稀疏性的影响，在生成规则和运用规则进行推理时计算复杂度高，难以适应当前大规模知识图谱的应用需求；基于表示学习的推理方法在低维向量空间中学习实体和关系的稠密向量，能够有效缓解数据稀疏问题，而且计算效率高，更加适合大规模知识图谱的关系补全任务。因此，对于第一个方面，本文重点研究基于表示学习的推理方法。在第二个方面，面对文本数据，主要有无监督、有监督和弱监督关系抽取方法。无监督方法以实体间的单词字符串表示关系，难以映射到特定的知识图谱中；有监督方法需要人工标注数据，其应用领域和规模受到限制；弱监督方法使用知识图谱作为监督信息，容易自动获得大规模训练数据，而且其关系类别以知识图谱中的关系为基准，没有关系映射困难的问题。因此，对于第二个方面，本文重点研究弱监督关系抽取方法。本文针对面向知识图谱的关系发现关键技术展开研究，研究内容及成果主要包括： 1、传统的表示学习方法没有考虑到知识图谱中实体和关系广泛存在多类别的特点，从而导致不同类型的实体和关系共享映射矩阵，影响关系预测的准确性。针对这个问题，本文提出了基于动态映射矩阵的表示学习推理方法TransD。该方法为每个实体和关系赋予两个向量，一个表示实体或者关系的一般含义；另一个用于动态地构造映射矩阵，以灵活的方式将实体向量中与当前关系有关的含义投影到关系向量空间中，然后完成从头实体到尾实体的映射过程。因此，每个(关系，实体)对的映射矩阵都由二者共同确定，这不但充分考虑了实体和关系的多类别性，而且用向量之间的运算代替了以往方法中矩阵乘以向量的运算，提高了计算效率。在WordNet和Freebase上的实验结果表明，该方法在三元组分类和链接预测任务上的表现显著优于基线系统。 2、针对知识图谱中数据存在异构性(不同关系连接的实体对数量不同)和不平衡性(同种关系连接的头、尾实体数量不同)的问题，提出了基于自适应稀疏映射矩阵的表示学习推理方法TranSparse。该方法采用稀疏矩阵作为映射矩阵，包含share和separate两个模型。share模型主要解决异构性问题，其头、尾实体共享一个映射矩阵，映射矩阵的稀疏度由关系连接的实体对数量确定，连接的实体对越多，稀疏度越小，反之越大；separate模型在share模型的基础上进一步解决不平衡性问题，其头、尾实体分别拥有各自的映射矩阵，稀疏度由关系在具体位置(头、尾位置)连接的实体数确定。稀疏矩阵使模型对数据具有很好的适应能力，且零元素不参与运算，能够减少计算量，易于应用在大规模知识图谱上。实验结果表明，TranSparse能够显著提升关系的预测效果。 3、对于弱监督关系抽取，针对训练数据中存在回标噪声和实体背景知识不足的问题，提出了基于句子级关注机制和实体描述的分段卷积神经网络模型。在句子级关注机制模块中，首先使用两个给定实体的向量之差作为它们之间关系的特征向量，然后使用分段卷积神经网络抽取多示例包中每个句子的特征向量，再通过一个隐藏层计算关系特征向量和句子特征向量的相似度(即关注权重)，通过权重的大小选取有效的句子，剔除噪声。除此以外，从Freebase和Wikipedia中抽取实体的描述，为实体提供更加丰富的背景知识，也为句子级关注机制提供更好的实体表示。实验结果表明，关注机制能够使用更高的权重选择有效句子，实体描述也能够提供更多有用的背景知识。在自动评价和人工评价上，该方法取得了优于所有基线系统的效果。上述工作的第1、2部分是基于表示学习的关系预测，第3部分是基于非结构化文本的关系抽取，二者相互补充，共同构成了本文中关系发现的内容。
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/14782]
专题	毕业生_博士学位论文
作者单位	中国科学院自动化研究所
推荐引用方式 GB/T 7714	纪国良. 面向知识图谱的关系发现关键技术研究[D]. 北京. 中国科学院大学. 2017.