融合用户信息的文本情感分析方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 博士学位论文

题名	融合用户信息的文本情感分析方法研究
作者	李俊杰
答辩日期	2018-12-04
文献子类	博士
授予单位	中国科学院大学
授予地点	北京市海淀区中关村东路95号中国科学院自动化研究所
导师	宗成庆
关键词	自然语言理解情感分析用户信息情感分类情感摘要
学位专业	计算机应用技术
英文摘要	随着互联网技术的快速发展，越来越多的用户在网上发表关于产品、社会事件以及政府政策等的评论。对这些主观信息进行自动收集和情感分析，可以挖掘用户对产品或事件的倾向，有利于相关企业或部门及时获取产品或政策的反馈，因此情感分析研究具有重大的现实意义。已有的情感分析研究大多关注于如何从评论文本中抽取更加有效的特征表示文本，或者构建更加复杂的神经网络模型对文本进行建模。但是，除了评论的文本内容外，评论发布者的相关信息（如年龄和性别等）对理解评论文本同样有重要的影响。基于此，本文的研究工作围绕如何充分利用用户信息来提升情感分析任务的效果，本文首先分析了两类用户信息——用户ID和用户属性（年龄和性别等）对情感分析的作用，然后将其融入文档级别情感分类、要素级别情感分类和情感摘要三个情感分析的任务中。论文的主要贡献和创新归纳如下： 1、提出了一种融合多层用户偏好的文档级别情感分类方法不同用户在情感表达的用词、对产品不同方面的关注、以及对产品打分的特点上都有着不同的偏好，这些偏好对文档级别情感分类非常重要。为了同时考虑这三类不同的用户偏好，本文提出了一个融合用户偏好的层次化注意力网络模型。该模型首先采用一个层次化的网络结构来编码词汇层、句子层、要素层和文档层的信息。然后引入用户向量和基于用户的注意力机制来对这三类偏好进行建模。在两个真实语料上的实验结果表明，融合用户偏好的模型能够显著提升情感分类的效果。与不考虑用户偏好的模型相比，我们方法的情感分类准确率提高了3个百分点，并且该方法还可以定量地刻画出不同用户对产品不同方面关注的差异性。 2、提出了三种融合用户属性的文档级别情感分类策略用户评论不仅在个体用户偏好上体现出差异性，同时，在相同属性（年龄和性别等）的用户群体中，也呈现出一定的规律性。不同用户群体对同一款产品会有不同的偏爱，比如年轻用户会偏爱先进的智能手机，而老年用户却更偏爱使用简单的老年机。基于此，本文提出了三种策略将用户属性融入传统的分类模型中：（1）提取用户属性特征，将它作为文本特征的补充；（2）基于图的模型来考虑属性相似用户发表的评论之间的关系；（3）将前两者进行融合。实验结果表明，我们的三种策略在情感分类的识别准确率上分别提升1.9%、0.9%和2.2%。 3、提出了一种融合多类信息的要素级别情感分类方法要素级别情感分类的目的是预测评论文本中各个要素的情感标签，其中要素指的是产品的某些待评价的方面。已有的研究工作主要关注于给定某个要素的条件下，如何从评论文本中提取出与要素相关的词汇或句子以表征该评论文本。这些方法忽略了用户和评论整体得分信息对要素情感分类的作用。为此，本章提出了一个基于层次化的神经网络模型，并将该模型融入到一个多任务学习的框架中。与已有方法相比，该模型能有效地建模这两类信息对要素级别情感分类的作用。实验表明，本文提出的模型能够显著提升要素级别情感分类识别的准确率。与不考虑用户和整体得分模型相比，该模型的识别准确率提高了6%，在同样的数据集上与当前最好的模型相比，本文方法的准确率提高了1.7%。 4、提出了面向个性化情感摘要的用户敏感序列网络模型现有的情感摘要方法忽视了对用户本身的建模，这些方法往往不能针对不同用户生成不同的摘要。事实上，对于同一个产品，不同的用户会关注不同的方面，因此，针对不同用户的摘要应该有所差异。本文针对情感摘要的个性化问题，在传统的序列到序列模型的基础上提出了一个用户敏感的序列网络模型。该模型在生成摘要时可以融合用户对评论内容关注的差异以及用户特有的用词习惯。实验表明，本文提出的方法显著优于传统的序列到序列模型，并且该模型可针对不同用户生成个性化的情感摘要。综上所述，本文在针对如何利用用户信息改善已有的情感分析方法上进行了深入的研究，分别研究了用户ID和用户属性对情感分类和情感摘要的影响，并提出了一系列的模型来融合这两类信息，最终有效地提高了情感分类和情感摘要任务的性能，相关成果有力地推动了该领域的研究。
语种	中文
页码	100
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/23063]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	李俊杰. 融合用户信息的文本情感分析方法研究[D]. 北京市海淀区中关村东路95号中国科学院自动化研究所. 中国科学院大学. 2018.