题名现代维吾尔语词汇信息处理关键技术研究
作者艾孜尔古丽·玉素甫
答辩日期2016-05-29
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词现代维吾尔语 平衡语料库构建 词汇信息处理技术 词汇计量研究
学位名称博士
学位专业计算机应用技术
英文摘要

本文对现代维吾尔语多策略统计与多维度动态特征数据分析关键技术、常用词表和现代维语词语标注规范的研制、词性标注关键技术进行全方位、系统的研究,形成统一地现代维吾尔语词汇信息处理研究体系,是维吾尔语进行舆情分析、语言理解的智能系统的开发奠定技术及资源基础。最终形成一定数量的现代维吾尔语词汇计量研究成果,开拓出现代维吾尔语计量语言学新领域。系统、科学地构建一种现代科学意义上的现代维吾尔语计量语言学理论。对现代维吾尔语进行了多层次、全方位的计量研究,发现维吾尔语语言系统的结构和演化规律。其研究成果也可直接应用于维吾尔语文网络舆情分析研究以及我国与中亚的跨境语言研究和舆情监测,也为“一带一路”战略提供“互联网+”语言服务。本文面向社会媒体,结合计算语言学、语料库语言学、计量语言学等学科基础,从现代维吾尔语平衡语料库的资源建设、现代维吾尔语词汇信息处理关键技术、现代维吾尔语词汇计量研究等三个方面开展研究。以提高现代维吾尔语词汇一级信息处理技术的代表性、可靠性和权威性为目标,探索现代维吾尔语词汇信息处理研究的基本理论体系、系统地基本方法和关键技术。(1)现代维吾尔语平衡语料库的资源建设研究维吾尔语平衡语料库构建技术,构建维吾尔语词汇库、语法语义词干词典等语料库,研制较为全面的现代维吾尔语常用词表和基于语法语义的词干词性标注规范标准。为了做好现代维吾尔语平衡语料库的可靠性、代表性和权威性,对语料来源、语料范围、语料载体等方面进一步研究,保证平衡语料库的权威性和代表性,根据现有语料具体情况,以传播媒体作为筛选依据。在现有语料规模基础上,不断完善和优化网络媒体、平面媒体、有声媒体、教育教材媒体等四大媒体大规模文本语料库,总语料规模1.42G(词汇量达8千万以上)。已建立85万条以上词种的维吾尔语动态词汇库、10万条以上的语法语义信息词干词典,20万条短语以上的短语库、维汉维吾尔人人名词汇、世界地名、新疆地名、维汉双语词汇等知识库。(2)现代维吾尔语词汇信息处理关键技术重点研究如何结合并利用计算语言学知识改进词汇统计、数据分析、词性标注方法,研究现代维吾尔语词干提取算法、词尾切分算法、特征数据分析算法、常用词提取、词干词性标注算法等关键技术,构建基于平衡语料库的现代维吾尔语多策略统计模型、现代维吾尔语词汇动态特征数据分析模型及词性标注模型。现代维吾尔语词汇统计及数据分析研究包括现代维吾尔语词干提取、词尾切分、数据分析等关键技术研究。现代维吾尔语词干提取关键技术讨论现代维吾尔语基于词干提取算法、文本格式转换与标准、文本调整等重要模块功能以及研究词干在网络媒体语料中应用形式。现代维吾尔语词尾切分关键技术研究陈述维吾尔语词法结构、词语还原方法、语料应用领域、采集的语料时间跨度与统计方法及分析结果。现代维吾尔语数据分析技术研究介绍数据分析方法的组成,研究频次与词种的关系、词种覆盖率、词种分布分析、词长分析等内容。现代维吾尔语常用词提取关键技术部分构建现代维吾尔语言语料库的关键技术与方法,特别是现代维吾尔语言语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表,从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。现代维吾尔语词干词类标注标记集验证性研究以维吾尔语小学语文教材语料为验证对象,利用从语法语义相结合角度制定的《现代维吾尔语词干词类标注标记集》,对维吾尔语小学语文教材词干进行了词性标注,验证该标记集规范的可行性、适应性和可靠性。补充和改正部分词类的语义分类及标注代码,提出了规范的扩充建议。基于形态分析的现代维吾尔语名词词干识别研究陈述形态分析概念和通过这些形态特征可以准确地识别其词性的意义。并总结维吾尔语的词类划分标准、名词的形态特征分析,总结词缀歧义及消解规则。本文提出研究总体思路,设计现代维吾尔语新词中名词识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等。(3)现代维吾尔语词汇计量研究现代维吾尔语词汇计量分析与应用为前面所述研究的应用,开拓出现代维吾尔语计量语言学新研究领域。将现代维吾尔语作为研究对象,扩充现代维吾尔语大规模动态文本语料库,开发与完善现有的计量处理工具,使用语法语义相结合的多策略方法,对现代维吾尔语词尾、词干、词语进行多层次、全方位、科学、系统的计量分析研究,构建现代维吾尔知识库,从计量语言学角度探索发现维吾尔语的语言规律。包括现代维吾尔语网站、九年义务教育维吾尔文教材,维吾尔语高中语文教材、现代维吾尔语有声媒体等词汇计量分析。针对教育教材媒体、网络媒体、有声媒体语料,应用以上所述的词汇信息处理关键技术进行计量分析,探索现代维吾尔语词汇计量语理论与方法。本文希望通过语言的定量特征以及这些特征之间的协同关系,采用从真实文本中抽象出的数量关系描述与理解维吾尔语词汇系统及其组成成分的发展和运作规律,研究所发现的语言规律也有助于更精确地描写与解释维吾尔语语言现象,系统、科学地构建一种现代科学意义上的现代维吾尔语计量语言学理论。对现代维吾尔语进行了多层次、全方位的计量研究,发现维吾尔语语言系统的结构和演化规律。

内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/4594]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
艾孜尔古丽·玉素甫. 现代维吾尔语词汇信息处理关键技术研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2016.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace