基于锚文本的聚焦网络爬虫搜索方法及其系统

	基于锚文本的聚焦网络爬虫搜索方法及其系统
	郝红卫; 台宪青; 王艳军; 殷绪成
	2011-08-11
专利号	CN201110230220.X
国家	CN
文献子类	发明专利
英文摘要	本发明公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统，所述方法主要包括：从URL优先级队列中获取URL，并依据URL从Internet下载得到Web页面；对下载的Web页面进行解析，提取URL及其锚文本；对提取出的URL及其锚文本进行筛选；采用TF-IDF与LSI相结合的算法来计算URL的主题相关度，并将符合条件的URL放入优先级队列中；所述系统包括：URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统，本发明提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。
公开日期	2011-12-28
状态	已授权
内容类型	专利
源URL	[http://ir.ia.ac.cn/handle/173211/40737]
专题	自动化研究所_数字内容技术与服务研究中心
作者单位	中国科学院自动化研究所
推荐引用方式 GB/T 7714	郝红卫,台宪青,王艳军,等. 基于锚文本的聚焦网络爬虫搜索方法及其系统. CN201110230220.X. 2011-08-11.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

暂无评论

评注功能仅针对注册用户开放，请您登录

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接