面向相似语种跨语言神经机器翻译的研究

CORC > 新疆理化技术研究所 > 中国科学院新疆理化技术研究所 > 多语种信息技术研究室

题名	面向相似语种跨语言神经机器翻译的研究
作者	李灿
答辩日期	2021-05-25
授予单位	中国科学院大学
授予地点	中国科学院新疆理化技术研究所
导师	马玉鹏
关键词	相似语种维汉翻译哈汉翻译基于音节切分的BPE BME标记跨语言机器翻译
学位名称	硕士
学位专业	计算机技术
英文摘要	长久以来，在低资源语言神经机器翻译中，一直存在着标注数据资源匮乏的问题。针对此问题，本文对相似语种跨语言神经机器翻译进行探究，选取维吾尔语和哈萨克语作为相似语种，重点研究维吾尔语和哈萨克语到汉语的跨语言神经机器翻译。提出基于语种相似性挖掘的跨语言神经机器翻译方法，创造了一种新的语料处理方式—基于音节切分的BPE处理，将BME语料标记方案引入神经机器翻译领域用于对切分后的音节的进行标记；另外对混合语料联合处理直译、两段式微调以及联合处理共享Embedding三种跨语言模型训练方案进行了探究。本文首先将维吾尔语和哈萨克语语料进行混合，并对混合语料采用BPE处理、音节切分处理以及基于音节切分的BPE处理三种语料处理方式进行处理以挖掘维吾尔语和哈萨克语的相似信息并加以利用；然后，引入BME标记对切分的音节进行标注，以消除音节输入所带来的一些歧义。最后，分别采用混合语料联合处理直译、两段式微调以及联合处理共享Embedding三种方案来训练维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型。在CWMT2015维吾尔语—汉语平行语料以及哈萨克语—汉语平行语料上进行实验，实验结果表明，采用本文所提出的基于音节切分的BPE方案处理语料，引入BME标记，采用联合处理共享Embedding方案训练所得维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型相比于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语—汉语翻译上BLEU值提升了11.85、6.74，在哈萨克语—汉语翻译上BLEU值提升11.74、6.66。综合实验效果来看，采用本文提出的基于音节切分的BPE处理方案，能最大程度的挖掘并利用维吾尔语和哈萨克语的相似信息，从而为维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型的训练带来极大的增益；引入BME标记对切分的音节进行标注，能很好的消除音节输入所带来的一些歧义；另外，两段式微调的跨语言模型训练方法能有效避免因语料混合所带来的噪音的影响，联合处理共享Embedding的跨语言模型训练方法能更有效的挖掘并利用了维吾尔语和哈萨克语二者的相似信息，从而使训练所得的维吾尔语和哈萨克语—汉语的跨语言神经机器翻译模型的翻译效果更佳。
页码	59
内容类型	学位论文
源URL	[http://ir.xjipc.cas.cn/handle/365002/7921]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	李灿. 面向相似语种跨语言神经机器翻译的研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们