题名增强译文忠实度的神经机器翻译方法研究
作者赵阳
答辩日期2019-05
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所智能化大厦
导师宗成庆
关键词神经机器翻译 忠实度 词汇翻译表 短语翻译表 翻译熵
学位专业模式识别与智能系统
英文摘要

近年来,机器翻译技术取得了长足的进步,译文质量不断提高,特别是基于端到端神经机器翻译方法(neural machine translation, NMT)的出现使得机器翻译的译文质量出现了变革式的发展,目前神经机器翻译方法已经成为机器翻译的新范式,同时各大公司依靠神经机器翻译方法改进了各自的机器翻译服务。然而,实践表明现有的神经机器翻译方法仍然存在一系列问题,而忠实度不高则是其中最为常见和严重的问题,更加具体地表现为错翻与漏翻现象。因此,研究增强译文忠实度的方法对提高机器翻译效果以及推动机器翻译的应用都具有重要的理论意义和应用价值。本文首先从分析现有神经机器翻译方法存在的问题出发,研究增强译文忠实度的神经机器翻译方法和实现技术。论文的主要工作和创新点归纳如下:

1、提出了一种融合词汇级翻译记忆的神经机器翻译方法

根据分析发现,某些类型的词语被神经机器翻译错翻的概率很高,本文称之为异常词。针对异常词,本文提出了融合词汇级翻译记忆的神经机器翻译方法以提升这类词语的翻译准确率。首先本文采取不同策略和标准来检测神经机器翻译系统的异常词。然后针对检测到的异常词,构建其词汇级翻译记忆存储每个异常词的候选译文及其翻译环境。最后通过一种动态的访问机制融合翻译记忆与神经机器翻译模型,以共同决定最终译文。实验表明,所提出的方法能够显著提高神经机器翻译系统的翻译效果,尤其能够显著减少神经翻译系统对于异常词的错翻率。


2、提出了一种融合短语级翻译记忆的神经机器翻译方法

词汇级翻译记忆缺乏上下文的约束,仍然存在一定的歧义性,然而统计机器翻译中的短语翻译规则直接编码了局部上下文信息,有助于消除歧义并且提升译文的忠实度。为此本文提出一种融合短语级翻译记忆的神经机器翻译方法。该方法的主要思想是在每个解码时刻利用短语翻译表构建推荐单词集,并提高推荐单词的预测概率。首先本文在短语翻译表中对源语言句子进行搜索并生成候选的目标短语集,随后将候选目标语言短语与已生成的部分译文进行匹配得到推荐单词集,然后计算每个推荐单词的推荐值,最后将推荐值与现有的神经机器翻译方法进行综合。实验表明,所提出的融合短语级翻译记忆的神经机器翻译方法能够充分利用短语翻译记忆来显著提高神经机器翻译的译文质量。

3、提出了一种基于翻译熵的神经机器翻译方法

除了错翻问题,漏翻也是导致神经机器翻译系统译文忠实度不高的关键因素。针对漏翻现象,本文提出基于翻译熵的神经机器翻译方法。首先本文通过实验分析发现源端单词的漏翻率与其翻译熵密切相关:一个单词的翻译熵越高,其漏翻率也越高。为了缓解高熵词的漏翻问题,本文进而提出一种基于翻译熵的神经机器翻译方法以减少高熵词的漏翻现象。所提出的方法是一种从粗粒度到细粒度的框架:在粗粒度阶段,构造一种伪目标语言来泛化高熵词语,以减少这类词语由于翻译不确定性而导致的漏翻现象;在细粒度阶段,利用构造的伪目标语言来提高现有神经机器翻译系统的性能。实验表明,所提出的方法能够有效地减少高熵词的漏翻现象。

综上所述,本文针对神经机器翻译存在的忠实度不高问题展开了深入研究,主要关注神经机器翻译中存在的错翻和漏翻问题,并分别提出了减少错翻和漏翻的方法。最终实验证实本文所提出的方法能够有效减少神经机器翻译的错翻和漏翻现象,相关成果有力地推动了神经机器翻译的研究与应用。

语种中文
页码116
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/23916]  
专题自然语言处理团队
推荐引用方式
GB/T 7714
赵阳. 增强译文忠实度的神经机器翻译方法研究[D]. 中国科学院自动化研究所智能化大厦. 中国科学院自动化研究所. 2019.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace