CORC  > 软件研究所  > 中科院软件所  > 中科院软件所
题名基于上下文的汉字简繁转换系统的实现
作者刘汇丹
学位类别博士
答辩日期2007-06-01
授予单位中国科学院软件研究所
授予地点软件研究所
关键词Unicode 简体中文 繁体中文 简繁转换
其他题名Implementation of Context Based Chinese to Chinese Conversion System
中文摘要由于历史的原因导致了海峡两岸四地存在一简一繁两种文字制度。近年来海峡两岸日趋广泛和深入的交流与合作,导致了对简繁转换系统的迫切需求,现有的简繁转换系统都存在这样或者那样的问题,不能满足正式文档简繁转换的需求。 本文围绕一个基于上下文的简繁转换系统的实现,主要做了如下工作: 第一,详细分析了简繁转换中涉及的编码、单字、词语等各方面存在的问题,分析了简繁转换的复杂性所在。提出了在Unicode基本多文种平面内完成简繁转换,并包括对BMP平面内非兼容区的所有汉字的简繁转换的支持。指出了多目标字词的存在导致了简繁转换的复杂性。 第二,指出了规范的中文分词将导致上下文信息的丢失,从而无法充分利用上下文信息保证简繁转换的正确性。提出了以词语转换消除单字转换歧义、以长词转换消除短词转换的歧义的转换策略。 第三,提出了简繁转换中单字转换与词语转换的协作。分析了部分多目标字的某些目标字只在个别或者少数词中使用的情况,当在词语转换中收录了这些词语以后,就可以将这个单字当作单目标字处理。 第四,提出了简繁转换正确性评估的方法。根据分级结果在输出时实行区别显示,使用户能够方便地找到哪些字词可能出现了错误,以便有针对性地进行校对。 第五,提出了将命名实体识别、搭配关系、词性标注等技术应用到简繁转换系统中,保证转换结果符合用户的需求,并保证系统转换的正确率。 第六,实现了基于上下文的简繁转换系统并给出了测试结果。
语种中文
公开日期2011-03-17
页码64
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/6532]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
刘汇丹. 基于上下文的汉字简繁转换系统的实现[D]. 软件研究所. 中国科学院软件研究所. 2007.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace