你的位置:首页 > Java教程

[Java教程]学习网络爬虫(1)


初学网络爬虫,请多多指教

以下是我觉得有用的资源总结,资源均来自网上

 

编程语言:java

使用网络爬虫:spiderman

 

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。
Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

 

Spiderman开源中国链接(含文档及下载): http://www.oschina.net/p/spiderman

Spiderman Java 爬虫示例: http://my.oschina.net/laiweiwei/blog/99937

【最新更新支持频道分页、文章分页】【抛砖引玉】抓取OSC的问答数据展现垂直爬虫的能力 :http://my.oschina.net/laiweiwei/blog/100866

XPath JAVA用法总结及代码样例 :http://www.open-open.com/lib/view/open1397717612656.html

w3school  XPath教程 : http://www.w3school.com.cn/xpath/index.asp