你的位置:首页 > 软件开发 > Java > 互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

发布时间:2016-05-23 17:00:06
系列教程:互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)上一节课我们一起通过一个p2p网贷爬虫,深入了解了一下XPath以及其在最终实际使用中的写法。可以毫不夸张的说,对于写简单爬虫来说,最最重要的,就是使用好XPath,以及这一课要讲的正则表达式。正则表达式,又 ...

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

系列教程:

互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

上一节课我们一起通过一个p2p网贷爬虫,深入了解了一下XPath以及其在最终实际使用中的写法。可以毫不夸张的说,对于写简单爬虫来说,最最重要的,就是使用好XPath,以及这一课要讲的正则表达式

正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE)

正则表达式几乎出现在每一个编程语言中,有着极其广泛的应用,比如做网页的时候,判断用户输入的是否是邮箱这样的正则。正则表达式本身写法基本在各个语言中 都是一致的,不过调用方法可能略有不同,在我们教的爬虫中,正则表达式主要应用在界定列表url和内容url的格式上,就是什么url是列表url,什么 url是内容url,什么url直接丢弃掉。这样做主要是为了提高整个爬虫的爬取效率,防止爬虫在无关的url花费太长的时间,当然如果希望全网爬的话, 也可以不做设定。

 对于手里有点闲钱的人来说,可能最常见的投资品就是股票了,虽然中国股票市场那叫一个变幻诡谲,妖兽频出。但依旧相对其他流通性差,投资门槛高的投资产品来说,有着国家信用背书的股市依然是不二的投资选择。股票的数据很多地方都有,我们今天就通过雪球的行情中心,爬一下当天各个上市公司的股票价格吧。

打开雪球行情中心:

互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

 

哇,突然觉得这是我们教程最高大上的一次。首先,这个页面就可以作为一个不错的入口Url,因为有着挺多的连接,不过从效率来讲,虽然爬虫本身可以帮我们去做很多事情,但是最好还是直接找到列表url会更快一些。我们继续往里找,可以看到这样一个界面:

https://xueqiu.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=1

原谅我实在不懂股市,姑且就认为这个就是所有股票价格的列表,砖家勿喷~

好了,我们看下这个下一页规律

https://xueqiu.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=2

 

好了,我们先根据这个连接来提取一下正则表达式,首先我们选中其中一个url,然后原封不动的写出来:

https://xueqiu.com/hq#exchange=CN&plate=1_1_0&firstName=1&secondName=1_1&type=sha&page=2 

 

海外公司注册、海外银行开户、跨境平台代入驻、VAT、EPR等知识和在线办理:https://www.xlkjsw.com

原标题:互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

关键词:互联网

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。