GJM：用C#实现网络爬虫（一） [转载]

发布时间：2016-11-16 12:00:19

网络爬虫在信息检索与处理中有很大的作用，是收集网络信息的重要工具。接下来就介绍一下爬虫的简单实现。爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源，直到该地址和所有子地址的指定资源都下载完毕为止。下面开始逐步分析爬虫的实现。 1. 待下载集合与已下载集合为了保存需要下 ...

网络爬虫在信息检索与处理中有很大的作用，是收集网络信息的重要工具。

接下来就介绍一下爬虫的简单实现。

爬虫的工作流程如下

爬虫自指定的URL地址开始下载网络资源，直到该地址和所有子地址的指定资源都下载完毕为止。

下面开始逐步分析爬虫的实现。

1. 待下载集合与已下载集合

为了保存需要下载的URL，同时防止重复下载，我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。

因为在保存URL的同时需要保存与URL相关的一些其他信息，如深度，所以这里我采用了Dictionary来存放这些URL。

具体类型是Dictionary<get='_blank'>string, int> 其中string是Url字符串，int是该Url相对于基URL的深度。

每次开始时都检查未下载的集合，如果已经为空，说明已经下载完毕；如果还有URL，那么就取出第一个URL加入到已下载的集合中，并且下载这个URL的资源。

2. HTTP请求和响应

C#已经有封装好的HTTP请求和响应的类HttpWebRequest和HttpWebResponse，所以实现起来方便不少。

为了提高下载的效率，我们可以用多个请求并发的方式同时下载多个URL的资源，一种简单的做法是采用异步请求的方法。

控制并发的数量可以用如下方法实现

由于没有显式开新线程，所以用一个工作实例来表示一个逻辑工作线程

1 private bool[] _reqsBusy = null; //每个元素代表一个工作实例是否正在工作2 private int _reqCount = 4; //工作实例的数量

第7行为了保证多个任务并发时的同步，加上了互斥锁。_locker是一个Object类型的成员变量。

第9行判断未下载集合是否为空，如果为空就把当前工作实例状态设为Finished；如果非空则设为Working并取出一个URL开始下载。当所有工作实例都为Finished的时候，说明下载已经完成。由于每次下载完一个URL后都调用DispatchWork，所以可能激活其他的Finished工作实例重新开始工作。

第26行的请求的额外信息在异步请求的回调方法作为参数传入，之后还会提到。

第27行开始异步请求，这里需要传入一个回调方法作为响应请求时的处理，同时传入回调方法的参数。

第28行给该异步请求注册一个超时处理方法TimeoutCallback，最大等待时间是_maxTime，且只处理一次超时，并传入请求的额外信息作为回调方法的参数。

RequestState的定义是

TimeoutCallback的定义是

接下来就是要处理请求的响应了

第19行这里采用了异步的方法来读数据流是因为我们之前采用了异步的方式请求，不然的话不能够正常的接收数据。

该异步读取的方式是按包来读取的，所以一旦接收到一个包就会调用传入的回调方法ReceivedData，然后在该方法中处理收到的数据。

该方法同时传入了接收数据的空间rs.Data和空间的大小rs.BufferSize。

接下来是接收数据和处理

第14行获得了读取的数据大小read，如果read>0说明数据可能还没有读完，所以在27行继续请求读下一个数据包；

如果read<=0说明所有数据已经接收完毕，这时rs.Html中存放了完整的HTML数据，就可以进行下一步的处理了。

第26行把这一次得到的字符串拼接在之前保存的字符串的后面，最后就能得到完整的HTML字符串。

然后说一下判断所有任务完成的处理

第3行创建了一个定时器，每过300ms调用一次CheckFinish来判断是否完成任务。

原标题：GJM：用C#实现网络爬虫（一） [转载]

关键词：C#

*特别声明：以上内容来自于网络收集，著作权属原作者所有，如有侵权，请联系我们： admin#shaoqun.com （#换成@）。

上线5个月销量翻10倍？90后海归快速启动亚马逊跨境电商，全靠学！：https://www.ikjzd.com/articles/153018
亚马逊协助多地公安机关对出口跨境电商灰黑产组织采取执法行动：https://www.ikjzd.com/articles/153019
慈善达人eBay：eBay赞助慈善活动筹集资金高达58,100美元！：https://www.ikjzd.com/articles/15302
英国跨境电商二三事，中国卖家必须了解的VAT法规：https://www.ikjzd.com/articles/153020
【干货】TikTok上中国卖家的那些玩法：https://www.ikjzd.com/articles/153021
网络销售增长，退货压力持续到2022年！：https://www.ikjzd.com/articles/153022
房车旅游路线四川房车旅游路线：https://www.vstour.cn/a/401226.html
海南游轮能带多少汽车坐海上游轮需要多少钱：https://www.vstour.cn/a/401227.html

GJM：用C#实现网络爬虫（一） [转载]

可能感兴趣文章

我的浏览记录