基于深度学习方法的维吾尔语文本自动摘要研究

CORC > 新疆理化技术研究所 > 中国科学院新疆理化技术研究所 > 多语种信息技术研究室

题名	基于深度学习方法的维吾尔语文本自动摘要研究
作者	杨山
答辩日期	2019-05-23
授予单位	中国科学院大学
授予地点	中国科学院新疆理化技术研究所
导师	杨雅婷
关键词	深度迁移学习句子的非结构化特征维吾尔语文本摘要语料库句子-原文相似度句子的语义内容
学位名称	硕士
学位专业	计算机技术
英文摘要	进入大数据时代后，互联网上存在着大量的维吾尔语文本信息，自动文本摘要技术应用到新闻摘要，简短的摘要可以帮助人们在短时间内快速的获取信息。把它应用到搜索引擎，基于查询的自动文本摘要技术会帮助用户尽快的找到其感兴趣的内容。此外，当今社会智能设备的大量普及，自动文本摘要技术会改变信息浏览与人机交互的方式。因此，维吾尔语文本自动摘要技术尤为重要。当前维吾尔语文本自动摘要存在着缺少大规模的适合有监督机器学习的维吾尔语文本摘要语料库的问题。由于语料库的缺少，导致诸多现有的有监督机器学习的算法不能应用到维吾尔语文本摘要任务上。所以，针对该问题本文的起始工作主要从以下两个方面入手。1. 在缺乏维吾尔语文本摘要语料库时，通过深度迁移学习的方式，从资源丰富的语种（汉语或英语）上学习不依赖于语言的句子的非结构化特征知识，然后将这些学习到的知识应用到维吾尔语文本摘要任务上。实验结果证明，在无维吾尔语文本摘要语料库的情况下，该方法为维吾尔语文本摘要提供一个有效的解决方案。2. 建设维吾尔语文本摘要语料库，本文通过网络爬虫从维吾尔语新闻网站上获取大规模的原文-标题对，然后经过文本清洗，最后构建成的维吾尔语文本摘要语料库包含：243,308原文-摘要对。在有维吾尔语文本摘要语料库的情况下，本文进行以下两个方面的探索。1. 首先，目前的抽取式单文档摘要方法未考虑原文中句子和原文语义信息相关度，针对该问题，提出一种基于语义空间的抽取式单文档摘要方法。首先，该方法利用W2V训练词向量以获取语义空间，并基于该语义空间表示句子和原文；然后，基于余弦相似度计算句子与原文相似度值，并使用TextRank和TF-IDF计算原文中句子的权重；最后，将相似度值与权重相结合得到句子的最终权重值。实验结果表明，本文提出的想法是可行的，并且已经将该方法应用到维吾尔语文本摘要任务。2. 其次，目前提取摘要模型分别利用句子的语义内容和非结构化特征来判别句子的重要性。本文提出了一种抽取式文本摘要方法，称为CRSum。它通过卷积神经网络和循环神经网络把句子语的义内容和非结构特征结合在一起判断句子的重要性。该模型首先通过卷积神经网络学习句子的语义内容，通过循环神经网络学习句子的非结构化特征。其次，根据神经网络所学的上述知识判断一个句子是否可以作为文章的摘要。此外，CRSum模型的所有预测都可以通过可视化句子的语义内容和非结构化特征解释预测的合理性。在LSCTC和CNN/Daily Mail语料库上的实验结果表明，该算法的性能优于基线系统，并超过在Rouge-L指标上取得最好的效果。该模型在维吾尔语文本摘要语料库上也取得很好的效果。
页码	61
内容类型	学位论文
源URL	[http://ir.xjipc.cas.cn/handle/365002/5982]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	杨山. 基于深度学习方法的维吾尔语文本自动摘要研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2019.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们