【nodeJS爬虫】前端爬虫系列」

发布时间：2015-11-12 12:00:13

写这篇 blog 其实一开始我是拒绝的，因为爬虫爬的就是cnblog博客园。搞不好编辑看到了就把我的账号给封了：）。言归正传，前端同学可能向来对爬虫不是很感冒，觉得爬虫需要用偏后端的语言，诸如 php ， python 等。当然这是在 nodejs 前了，nodejs 的出现，使 ...

写这篇 blog 其实一开始我是拒绝的，因为爬虫爬的就是cnblog博客园。搞不好编辑看到了就把我的账号给封了：）。

言归正传，前端同学可能向来对爬虫不是很感冒，觉得爬虫需要用偏后端的语言，诸如 php ， python 等。当然这是在 nodejs 前了，nodejs 的出现，使得 Javascript 也可以用来写爬虫了。由于 nodejs 强大的异步特性，让我们可以轻松以异步高并发去爬取网站，当然这里的轻松指的是 cpu 的开销。

当把页面内容抓回来后，一般不会直接分析，而是用一定策略存下来，个人觉得更好的架构应该是把分析和抓取分离，更加松散，每个环节出了问题能够隔离另外一个环节可能出现的问题，好排查也好更新发布。

海外公司注册、海外银行开户、跨境平台代入驻、VAT、EPR等知识和在线办理：https://www.xlkjsw.com