你的位置:首页 > 软件开发 > Java > Nutch2.x+Hbase环境部署和基本使用

Nutch2.x+Hbase环境部署和基本使用

发布时间:2016-03-12 12:00:22
由于项目想借助Nutch来做网络爬虫,所以一番研究,发现网上文档比较散,学习的很艰难,因此总结了一些,放上来与大家交流。1 环境部署Nutch有1.x系列和2.x系列,主要区别是2.x使用了Gora作为持久层媒介,可以将数据持久化到关系型数据库 ...

     由于项目想借助Nutch来做网络爬虫,所以一番研究,发现网上文档比较散,学习的很艰难,因此总结了一些,放上来与大家交流。

1       环境部署

Nutch有1.x系列和2.x系列,主要区别是2.x使用了Gora作为持久层媒介,可以将数据持久化到关系型数据库,更详细的介绍参考Nutch官网。

这里主要介绍采用Nutch2.3.1+HBase的方式进行部署,HBase又依赖于HDFS和Zookeeper,实际上,Nutch只是将HBase视为持久层,而并不关心HBase是单机模式还是分布模式,HBase又是将文件存储于HDFS,将元数据(表信息)存储于zookeeper,只不过单机模式下,把文件系统视为HDFS,而zookeeper可以使用内置,也可以使用外置的zookeeper。

安装Nutch

解压缩源码包:

tar –zxf apache-nutch-2.3.1-src.tar.gz


原标题:Nutch2.x+Hbase环境部署和基本使用

关键词:

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。

可能感兴趣文章

我的浏览记录