题名 | 多信息融合的自动摘要方法研究 |
作者 | 刘天赏 |
答辩日期 | 2019-05-24 |
文献子类 | 硕士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院大学 |
导师 | 张家俊 |
关键词 | 自动摘要,用户信息,词性信息,序列到序列模型,注意力机制 |
学位专业 | 计算机技术 |
英文摘要 | 自动摘要是一种信息压缩技术,旨在从输入信息中剔除冗余信息,保留核心信息,并将核心信息以通顺流畅的自然语言作为输出结果呈献给用户。随着互联网信息的日益丰富多样,人们可以检索到的信息也越来越庞杂,自动摘要技术可以有效地辅助人们从纷繁多样的网络信息中自动地找到重要的或者人们感兴趣的内容,从而减轻人们获取信息的负担。高质量的摘要可以直接以新闻快讯、商品描述等简短信息的形式呈现给用户,亦可以用于下游任务,比如在信息检索中使用网页的摘要进行检索等。因此,开展这项研究具有重要的理论意义和实际应用价值。 目前的自动摘要模型几乎都是以文本为研究对象,但是文本之外的其他信息,例如文本撰写者的个人信息和语言学信息等,都能够作为辅助信息帮助生成质量更好的摘要结果。所以,利用文本之外的哪些信息以及如何将这些信息融入到摘要模型之中,成为文本自动摘要的一个挑战。本文重点研究融合两类信息的自动摘要方法:电商用户评论摘要任务中对用户信息的融合和新闻单文档摘要任务中对语言学信息的融合。 论文的主要工作及创新点归纳如下: 1. 提出融合用户信息的自动摘要方法 电商用户评论摘要是为电商平台上的每条用户评论生成一个简短的标题。因为在电商平台上用户为评论生成的标题因人而异,电商用户评论摘要模型不仅需要挖掘评论的核心信息,而且需要关注撰写该评论的用户的个人偏好,所以电商评论摘要比一般的单文档摘要难度更大。现有的评论摘要模型,只关注单纯的评论文本,未将用户的偏好考虑在内,使得生成的评论标题不能反映特定用户的个人偏好。我们认为在对电商用户评论进行摘要时应融合用户信息。因此,我们提出融合用户信息的电商评论摘要方法。我们在分布式向量空间中表示和学习用户的偏好,并将用户的偏好表示融入到带注意力机制的序列到序列的生成式摘要模型中。实验结果表明,融合用户信息的评论摘要模型显著优于单纯使用评论文本的摘要模型。这说明用户信息对电商用户评论的自动摘要起到很关键的作用,同时也表明我们提出的融合用户信息的电商评论摘要模型是有效的。通过对样本的分析,我们进一步发现,我们的模型相比基线模型更能捕捉到用户的个人偏好。 2. 提出融合词性信息的自动摘要方法
|
语种 | 中文 |
页码 | 70 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/23926] |
专题 | 自动化研究所_模式识别国家重点实验室_自然语言处理团队 |
通讯作者 | 刘天赏 |
推荐引用方式 GB/T 7714 | 刘天赏. 多信息融合的自动摘要方法研究[D]. 中国科学院大学. 中国科学院大学. 2019. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论