你的位置:首页 > 软件开发 > 数据库 > 搜索引擎手记(二)之爬虫的开发

搜索引擎手记(二)之爬虫的开发

发布时间:2015-12-01 02:00:11
2015年3月23日(星期一) 晴、南风  今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。爬虫主要采用了httpclient和htmlparse两个Java库,爬虫 ...

搜索引擎手记(二)之爬虫的开发

2015年3月23日(星期一) 

晴、南风

  今天数据组开会说爬虫已经开发完毕,在尝试爬网站。由于我们采集的网站,网址都是固定的,并且爬虫网页深度为3。不需要像heritrix这些通用爬虫那么强大的功能。

爬虫主要采用了httpclient和htmlparse两个Java库,爬虫的架构思路借鉴了下面的思路。

一、        架构图

那里搜网络爬虫框架主要针对电子商务网站进行数据爬取,分析,存储,索引。

 

海外公司注册、海外银行开户、跨境平台代入驻、VAT、EPR等知识和在线办理:https://www.xlkjsw.com

原标题:搜索引擎手记(二)之爬虫的开发

关键词:搜索引擎

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。