CORC  > 厦门大学  > 信息技术-学位论文
题名基于视觉分块及启发式规则的web信息抽取; Web Information-Extraction Based on Vision Block and Heuristic Rules
作者周晓明
答辩日期2013 ; 2013
导师张东站
关键词Page Classification Content Extraction VIPS 网页分类 正文提取 VIPS
英文摘要随着计算机的普及和互联网技术的迅猛发展,互联网已经成为人们获取信息的最大数据源。由于Web数据具有海量性和时效性的特点,单纯靠人工进行大规模提取无疑是不现实的。因此,对Web信息抽取技术的研究具有十分重要的意义。 国内外对Web信息抽取技术进行了大量的研究,目前研究较多和应用较广的是利用网页分块的思想。其中比较有效的VIPS算法在DOM树的基础上,创新性地结合了视觉信息对网页进行分块。然而VIPS算法过于复杂,且不大适应当前网页的发展趋势,因此本文提出了基于DOM和视觉的网页分块算法,设计了4条无用块规则和7条基本块规则,对网页按广度优先进行分块,舍弃无用块,保留基本块,最后网页将被分割成一...; With the popularity of computer and the rapid development of Internet technology, Internet has become the biggest data source for people to obtain information. Because web data has the characteristics of mass and timeliness, simply relying on manual extraction is not realistic. Therefore, research on Web information extraction technology has very important significance. The web information ext...; 学位:工程硕士; 院系专业:信息科学与技术学院_计算机技术; 学号:23020101153035
语种zh_CN
出处http://210.34.4.13:8080/lunwen/detail.asp?serial=38874
内容类型学位论文
源URL[http://dspace.xmu.edu.cn/handle/2288/79286]  
专题信息技术-学位论文
推荐引用方式
GB/T 7714
周晓明. 基于视觉分块及启发式规则的web信息抽取, Web Information-Extraction Based on Vision Block and Heuristic Rules[D]. 2013, 2013.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace