题名基于短语汉维机器翻译解码的研究及实现
作者杨世勤
答辩日期2018-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师王磊
关键词汉维统计机器翻译 解码 特征模型 柱搜索 词向量
学位名称硕士
学位专业计算机技术
英文摘要

目前,基于短语模型机器翻译的解码理论在汉英、法英等形态变化相近的语言对的翻译任务中是比较成功的。但不同翻译语言对的差异程度不同,汉、维语种之间的差异是比较大的,维语形态变化复杂,汉、维语之间语序差异较大等给解码的搜索带来了严重干扰。本文的研究目的是为了探索适合汉维语言对的基于短语模型机器翻译的解码优化方案。在基于短语模型机器翻译中,解码涉及统计机器翻译多方面的研究内容。提升解码器的性能,除了要充分考虑评分特征模型的结合效果、解码搜索算法的效率之外,也要对不同差异的翻译语种给解码处理造成的局限性问题的原因进行分析,有所针对地提出优化方法。本文的工作主要有以下三方面的内容:1、 对基于短语模型机器翻译的解码理论进行深入总结,形成初步的解码器的设计方案。解码器的设计采用对数线性模型为框架模型,首先对相关评分特征模型的基本理论进行深入的分析,然后研究柱搜索解码的详细过程,结合评分特征模型的实际对解码器各子模块的具体处理进行了设计。2、 在初步解码器的设计方案基础上,结合汉、维语在翻译中的实际情况,加入其他能有效指导解码的特征信息及限制规则,对汉维机器翻译的解码进行优化。具体地,针对汉、维翻译中维语形态变化复杂、汉维语句法结构不同等造成的解码局限性问题,本文进行了以下优化。通过使用词向量来利用输入句子内部一些隐含的语法、语义关系,挑选更忠实于当前句子的目标短语,过滤短语对候选表。在语言模型的评分中引入词向量计算短语的相似度;利用词向量将维语单词间隐含的语义关系加入到解码评分。重新对调序距离限制方法进行调整,并设计了一个在解码中限制源短语扩展的方法,使翻译解码的调序更能符合汉维翻译的实际。3、 最后,按所设计的方案编程实现解码器。分析各个方案的解码器的实验结果,通过实验对比,检验解码优化方法的有效性以及测试最优解码器的性能。实验结果表明,本文针对汉维机器翻译解码进行的优化方法是有效的。所实现的解码器能有效支持汉维翻译。

页码59
内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/5453]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
杨世勤. 基于短语汉维机器翻译解码的研究及实现[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2018.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace