题名面向Web 观点数据的观点检索与挖掘关键技术研究
作者徐学可
答辩日期2012-11-25
文献子类博士
授予单位中国科学院研究生院
授予地点北京
导师白硕
关键词Web观点数据 观点检索 观点挖掘 博客 顾客点评 博客信息源观点检索 语言模型 混合模型 主题偏移的随机行走 话题模型 属性情感联合模型 基于属性的抽取式观点摘要
学位专业其它专业
英文摘要随着Web 2.0的蓬勃发展,大量用户在Web 上通过各种个人内容发布平台,如:博客、微博、产品点评网站、论坛等,针对各种对象,如社会话题、新闻事件、产品或服务,发表个人观点看法,从而产生了海量的Web观点数据,其中蕴含丰富的与现实联系紧密的舆情信息。Web观点数据来源大众、规模庞大、增长迅速、分布广泛同时由于发布方便质量难以保证,这些特点使得人们高效获取并理解、把握Web相关观点信息成为一个重大挑战,而采用人工方式采集整理相关观点信息不太可行。 观点检索与挖掘是解决上述挑战的相互衔接的关键。其中,观点检索帮助人们高效地从Web中获取包含感兴趣对象相关观点的Web观点数据;而观点挖掘从获取的Web观点数据中进一步地抽取、分析、归纳其中相关观点信息,方便用户快速、正确、深入理解相关观点信息。 本文以两类重要的Web观点数据博客数据和在线顾客点评(online customer reviews)为对象,以文档流观点检索和属性层次(aspect-level)的观点挖掘这两类重要应用为背景,围绕观点检索和挖掘的核心问题及挑战展开研究,从而帮助人们高效获取及理解Web相关观点信息。 具体而言,1) 首先,我们研究观点检索关键技术。通常而言,观点检索目标在于获取包含查询对象相关观点的Web文本数据,其核心挑战就是如何有效捕获主题相关观点,忽略无关观点。而本文以一类典型的文档流,博客信息源(blog feed),为检索对象研究文档流观点检索,目标在于发现有显著、持续地发布相关观点的总体趋势的博文流。不同于普通文档,博客信息源是动态的博文(blog post)流,能提供用户持续更新的信息。为了解决观点检索的一般性挑战及博客信息源观点检索的特殊挑战,文本提出了一个一体化的概率检索框架,其中整合了基于语言模型的观点评分方法。基于该框架,本文就如何针对博客信息源检索单元合理捕获主题相关观点;如何利用博客信息源的各种丰富信息更好地反映是否有显著的相关观点趋势展开了研究。 2) 然后,我们以顾客点评数据为对象研究属性层次(aspect-level)的观点挖掘技术。对于一个属性层次观点挖掘应用,我们需要抽取给定领域的实体的属性信息。此外,由于观点表达及其情感极性的属性依赖性,我们还需要学习属性依赖的情感词典知识作为具体应用的支撑。2.1) 因此,我们首先研究实体属性及属性依赖的情感词典抽取,提出了属性情感联合模型来从给定领域的顾客点评(如餐馆点评)中抽取实体属性及属性相关观点词,并识别其属性依赖的情感极性,来为具体的属性层次的观点挖掘应用提供支持。2.2) 在此基础上,我们重点研究一种具体的实际应用:基于属性的抽取式观点摘要。该任务针对给定属性,抽取出少量相关的观点句子,用以传达针对该属性的主要观点信息。我们研究如何利用属性相关观点词知识、句子间观点相似关系及摘要结果中观点差异性要求来抽取满足富含信息、重要性及多样性的高质量观点摘要。我们提出了基于带汇点的流形排序(manifold ranking with sink points)[9]的摘要抽取模型,在一体化的流形排序过程中,同时考虑这三方面要求。 人们往往针对特定的主题,如一个公众话题或者实体属性,来表达自己的观点,并传达或褒或贬的情感极性。本文的研究中一个贯穿始终的核心问题是观点表达及其情感极性对观点主题的依赖性:针对不同观点主题,往往有不同的观点表达特征;即使同一观点表达针对不同主题时所传达的情感极性也可能不同。本文的研究围绕挖掘这样的主题依赖性及利用主题依赖性提高具体应用的性能展开。比如,在博客信息源观点检索中我们利用概率混合模型来学习具有主题区分能力的观点表达特征来帮助捕获主题相关观点;我们提出了属性情感联合模型来学习属性依赖的情感词典知识(即属性相关的观点词及相应的情感极性),并应用到一系列的属性层次的观点挖掘应用。我们希望本文的研究对其他场景下的观点检索和挖掘应用研究有一定启发意义。
语种中文
学科主题自然语言处理
公开日期2013-01-30
内容类型学位论文
源URL[http://ictir.ict.ac.cn/handle/311040/1576]  
专题中国科学院计算技术研究所学位论文_2010博士
推荐引用方式
GB/T 7714
徐学可. 面向Web 观点数据的观点检索与挖掘关键技术研究[D]. 北京. 中国科学院研究生院. 2012.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace