CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名融合图片信息的神经机器翻译方法研究
作者黄鑫
答辩日期2023-06-02
文献子类博士
关键词神经机器翻译 跨模态信息融合 多任务学习 对比学习
英文摘要

近年来,端到端的神经机器翻译方法取得了飞速的发展。相比于传统的统计机器翻译方法,翻译质量有显著提升,同时在融合跨模态信息方面也凸显出其独有的优势。融合图片信息的神经机器翻译方法是一种在基于编码器-解码器框架的翻译模型中,利用图片中的视觉信息改善文本翻译质量的方法。图片中往往蕴含着文本以外的额外信息,能够补充或强调文本信息,因此在句子编码过程中加入图片信息以完善文本的表示,或在解码过程中提供图片信息作为参考以指导译文的生成,都是在机器翻译中利用图片信息的可行方案。尽管图片对于机器翻译过程有着重要作用,但是在神经机器翻译中融合图片信息依然面临着多项挑战,例如,跨模态对齐关系弱导致翻译模型倾向于忽略图片信息而退化为纯文本翻译模型;或是图片信息难以被有效利用,在翻译模型中通过输入图片带来的翻译质量提升与输入噪音时的差距很小;以及图片信息作用不明确,这使得模型的改进难以具有针对性。

本文围绕如何设计有效的图片与文本之间的跨模态信息融合方法提升神经机器翻译的质量展开研究,如通过明确图片信息在文本中的作用目标从而规避模型对图片信息不敏感的问题,或强化图片信息在模型训练过程中的作用进而提升模型对图片信息的敏感度。

论文的主要工作和创新点归纳如下:

1. 提出了一种基于跨模态文本重构的神经机器翻译方法

在神经机器翻译中融合图片信息的常规方法采用隐式跨模态信息融合方法,其将图片和句子一同输入到翻译模型中参与编码或解码过程,从而使图片信息与文本信息充分地融合。然而,这类方法存在图片信息作用方式不明确的问题。为了探究显式跨模态信息融合法是否可行,本文提出了一种基于跨模态文本重构的神经机器翻译方法。该方法在训练中将源语言句子中的名词或短语的位置显式地替换为图片中对应的视觉目标,并将该跨模态序列输入到重构模型中用于生成完整的句子。最后通过参数共享的方式将重构模型的参数与翻译模型共享,达到了提升翻译质量的目的。实验表明,该方法通过提升实体词翻译准确率的方式提升了纯文本翻译模型的性能。

2. 提出了一种基于双向跨模态实体重构的神经机器翻译方法

为了在显式方法中更进一步地利用图片信息,并融合隐式方法的优点,本文提出了一种基于双向跨模态实体重构的神经机器翻译方法。不同于之前方法进行文本级别的重构,该方法在文本实体和视觉实体之间进行双向重构。同时,为了更进一步在文本上下文中融合图片信息,还增加了文本非实体的重构。然后,将以上三种重构任务与机器翻译任务通过多任务学习的方式相结合。实验表明,该方法在测试阶段不需要输入图片的情况下进一步地提升了机器翻译的质量,双向实体重构与非实体重构的多任务组合方式是有效的。

3. 提出了一种基于图文对比对抗训练的神经机器翻译方法

针对句子中有歧义词或语义不完整等问题时,需要将图片输入到翻译模型中,利用图片中的额外信息辅助翻译过程,从而得到更准确的译文。为此,本文提出了一种基于图文对比对抗训练的神经机器翻译方法。为了拉近双语的语义关系,该方法在编码端增加了图文与目标语言句子之间对比学习,并在负样本集中引入了包含源语言句子与错误图片组合而成的对抗样本。对比损失函数为了能够将正负样本区分开,迫使翻译模型能够判断图片信息是否与源语言句子的语义一致,并将正确的图片信息融合到文本的表示中。这样能够达到提升视觉信息在模型中的作用程度的目的。实验表明,该方法能够使翻译模型更有效地利用图片信息提升翻译准确率。

综上所述,本文旨在设计更好的图片信息融合方法,提升图片信息在神经机器翻译模型中的作用效果。本文所设计的显式的跨模态信息融合方法、隐式跨模态信息融合方法以及两种方式相结合的方法能够有效地将图片信息在模型的训练阶段融合到翻译模型中以优化模型参数,或在模型的测试阶段与待翻译句子相融合以优化原文表示,最终为模型的翻译质量带来提升。

语种中文
页码113
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52128]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
黄鑫. 融合图片信息的神经机器翻译方法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace