CORC  > 厦门大学  > 信息技术-学位论文
题名基于分布式语义表示的两岸词汇差异研究和古籍文本处理; Cross-Strait Lexical Divergence Research and Ancient Chinese Texts Processing Based on Distributed Semantic Representation
作者王博立
答辩日期2016-12-23 ; 2016-05-19
导师史晓东
关键词分布式语义表示 两岸差异词汇 古籍处理 异体字 断句 Distributed Semantic Representation Cross-Strait Lexical Divergence Ancient Chinese Texts Processing Variant Character Sentence Segmentation
英文摘要语义问题一直是自然语言处理领域的一个难点。近年来,随着深度学习技术的逐渐兴起,越来越多的研究采用深度神经网络对语义相关的问题进行建模。在语义层面上开展研究,能更为有效地解决一些传统统计方法所难以解决的问题,也更为接近人类的语言认知习惯。本文正是在这样的背景下,采用分布式语义表示方法,重点研究中文信息处理中三个与语义相关的具体问题:两岸词汇差异对比、古籍异体字规范化和古籍自动断句。 (1)两岸间存在大量的差异词汇,传统研究多采用手工方法进行整理,本文采用词向量方法在两岸可比语料上自动发现差异词汇。本文首先对语料进行了预处理并抽取多词表示,通过词频分析找出大陆特有词汇和台湾特有词汇,然后采用词向...; Semantic processing is the holy grail of natural language processing. Recently, with the fast growing up of deep learing technology, various types of deep neural networks have been proposed to deal with semantics related problem. Methods leveraging semantic information are often regarded as more powerful than traditional statistical methods and closer to the cognitive mechanism of human beings. In...; 学位:工学硕士; 院系专业:信息科学与技术学院_计算机科学与技术; 学号:31520131153281
语种zh_CN
出处http://210.34.4.13:8080/lunwen/detail.asp?serial=55908
内容类型学位论文
源URL[http://dspace.xmu.edu.cn/handle/2288/134791]  
专题信息技术-学位论文
推荐引用方式
GB/T 7714
王博立. 基于分布式语义表示的两岸词汇差异研究和古籍文本处理, Cross-Strait Lexical Divergence Research and Ancient Chinese Texts Processing Based on Distributed Semantic Representation[D]. 2016, 2016.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace