题名面向相似语种跨语言神经机器翻译的研究
作者李灿
答辩日期2021-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师马玉鹏
关键词相似语种 维汉翻译 哈汉翻译 基于音节切分的BPE BME标记 跨语言机器翻译
学位名称硕士
学位专业计算机技术
英文摘要

长久以来,在低资源语言神经机器翻译中,一直存在着标注数据资源匮乏的问题。针对此问题,本文对相似语种跨语言神经机器翻译进行探究,选取维吾尔语和哈萨克语作为相似语种,重点研究维吾尔语和哈萨克语到汉语的跨语言神经机器翻译。提出基于语种相似性挖掘的跨语言神经机器翻译方法,创造了一种新的语料处理方式—基于音节切分的BPE处理,将BME语料标记方案引入神经机器翻译领域用于对切分后的音节的进行标记;另外对混合语料联合处理直译、两段式微调以及联合处理共享Embedding三种跨语言模型训练方案进行了探究。本文首先将维吾尔语和哈萨克语语料进行混合,并对混合语料采用BPE处理、音节切分处理以及基于音节切分的BPE处理三种语料处理方式进行处理以挖掘维吾尔语和哈萨克语的相似信息并加以利用;然后,引入BME标记对切分的音节进行标注,以消除音节输入所带来的一些歧义。最后,分别采用混合语料联合处理直译、两段式微调以及联合处理共享Embedding三种方案来训练维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型。在CWMT2015维吾尔语—汉语平行语料以及哈萨克语—汉语平行语料上进行实验,实验结果表明,采用本文所提出的基于音节切分的BPE方案处理语料,引入BME标记,采用联合处理共享Embedding方案训练所得维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型相比于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语—汉语翻译上BLEU值提升了11.85、6.74,在哈萨克语—汉语翻译上BLEU值提升11.74、6.66。综合实验效果来看,采用本文提出的基于音节切分的BPE处理方案,能最大程度的挖掘并利用维吾尔语和哈萨克语的相似信息,从而为维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型的训练带来极大的增益;引入BME标记对切分的音节进行标注,能很好的消除音节输入所带来的一些歧义;另外,两段式微调的跨语言模型训练方法能有效避免因语料混合所带来的噪音的影响,联合处理共享Embedding的跨语言模型训练方法能更有效的挖掘并利用了维吾尔语和哈萨克语二者的相似信息,从而使训练所得的维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型的翻译效果更佳。

页码59
内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/7921]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
李灿. 面向相似语种跨语言神经机器翻译的研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace