CORC  > 厦门大学  > 信息技术-学位论文
题名基于规则与统计的热词发现及聚类算法研究; Research on Hot Words Discovery and Clustering Algorithm Based on Rules and Statistics
作者连晓轩
答辩日期2014 ; 2013
导师张东站
关键词热词发现 热词聚类 Nagao串频统计 Hot Words Discovery Hot Words Clustering the Nagao String Frequency Statistics
英文摘要热点词汇(以下简称热词)是一种普遍的网络词汇现象,反映了特定一段时间内人们普遍关注的问题,对热词进行快速识别和定向跟踪,可以快速地了解民情、了解社会动态和发展趋势,更快捷更准确地抓住舆论导向,从而进行正确地引导和宣传。因此,如何挖掘热点词汇将是中文信息处理中的一个重要研究课题。 目前,对于热词的检测方法总体可以分为两大类:基于规则和基于统计。基于规则的方法的优点是准确率高,但灵活性差,规则维护困难;基于统计的方法的优点是灵活性好,可移植性强,但需要对大规模语料进行训练,会产生大量的垃圾串,准确率并不是很高。因此本文提出了一种基于规则和统计相结合的热点词汇发现方法,并在此基础上建立热点词汇搜索...; Hot Words (hereinafter referred to as hot words) is a universal network vocabulary phenomenon, reflecting the widespread concern within a specific period of time.Through the hot words rapid identification and orientation tracking, we can quickly understand their needs, understand the social dynamics and trends, and more efficient and more accurate grasp of public opinion, thereby performing correc...; 学位:工学硕士; 院系专业:信息科学与技术学院_计算机软件与理论; 学号:23020101153038
语种zh_CN
出处http://210.34.4.13:8080/lunwen/detail.asp?serial=38942
内容类型学位论文
源URL[http://dspace.xmu.edu.cn/handle/2288/79526]  
专题信息技术-学位论文
推荐引用方式
GB/T 7714
连晓轩. 基于规则与统计的热词发现及聚类算法研究, Research on Hot Words Discovery and Clustering Algorithm Based on Rules and Statistics[D]. 2014, 2013.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace