CORC  > 厦门大学  > 信息技术-学位论文
题名基于ICF词语聚合的特征降维方法以及在中文文本分类中的应用; Feature Reduction Method Based on ICF Word Aggregation and Application in Chinese Text Categorization
作者孙晶
答辩日期2016-03-16 ; 2015-05-19
导师张东站
关键词文本分类 特征降维 词语聚合 逆概念频率 词语相似 text categorization feature dimension reduction word aggregation inverse concept frequency word similarity
英文摘要文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度和效率有重要的研究意义。文本分类主要有文本预处理、文本分类处理、分类结果评价三个步骤,其中特征降维技术直接影响分类效果,传统的特征降维方法采用对训练语料库的分词集合统计的方法,通过计算某种评价函数选择超过预先设定的阈值的词语作为特征项。这种降维方法过于依赖训练文本集,效果受训练文本的局限,会导致过拟合。 针对过拟合现象,本文从词语间的语义关系出发,提出一种基于词语聚合的文本特征降维技术。该方法通过研究词语之间的语义关系求出分类类...; Text categorization is an important technology in data mining, it has been widely applied in word discrimination, the organization and management of a text, information filtering, Web page document classification, digital library, information retrieval and many other fields widely in China, therefore to improve the accuracy and efficiency of text categorization have important research significanc...; 学位:工学硕士; 院系专业:信息科学与技术学院_计算机科学与技术; 学号:23020121152920
语种zh_CN
出处http://210.34.4.13:8080/lunwen/detail.asp?serial=49814
内容类型学位论文
源URL[http://dspace.xmu.edu.cn/handle/2288/134609]  
专题信息技术-学位论文
推荐引用方式
GB/T 7714
孙晶. 基于ICF词语聚合的特征降维方法以及在中文文本分类中的应用, Feature Reduction Method Based on ICF Word Aggregation and Application in Chinese Text Categorization[D]. 2016, 2015.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace