注册
登录
提问时间:2018/5/15 10:20:51    楼主:未知网友   阅读量:544

爬虫正在欢快的爬行,突然,遇到了反爬虫,爬不下去了,怎么办?江湖告急,求助神通广大的网友大神们。大神们摩拳擦掌,指点江山,激扬文字,一条条解决办法喷涌而出,什么购买代理IP、ADSL拨号、放慢爬取速度等等。

ADSL拨号太麻烦,放慢爬取速度怎么可能,购买代理花费很大啊,怎么办呢?“自力更生,丰衣足食”,突然想起了某位伟人说过的一句至理名言。那么多代理IP服务提供商不都有免费代理IP吗,何不都爬取过来自建IP池呢,这样既有了代理IP又节省了成本,两全其美,何乐而不为呢?

免费代理IP

如何爬取免费代理IP自建IP池呢?这可难不住聪明的爬虫工程师,小小爬虫还不是信手沾来。

一、寻找目标网站。提供免费代理IP的网站太多了,网上一搜一大把,这里就不一一列举了,可以选择其中一个网站进行爬取,贪心的呢就一网打尽。

二、分析网站结构。不同的网站结构不同,可以通过浏览器的F12打开开发者工具进行分析,获取的数据选择IP地址和端口即可,再加上类型(选择高匿代理),具体如何操作,相信都会,这里就不啰嗦了。

三、编写代码爬取。万事俱备,只欠编写代码了,匹配数据,随机获取IP并自定义好IP的存储格式,可以现抓现用,也可以存起来一起拿出来使用,由于篇幅太长这里就不贴出来了,网上多的是。

四、代理IP投入使用。代理IP有了,接下来就是投入到爬虫工作中去使用了,当然,在投入使用前要先验证一遍,但是,验证结果一出来,傻眼了,总共爬取了四万八千个IP,结果验证成功的只有36个,结果一用,还一卡一卡的,欲哭无泪,白忙乎一场。

啊,多么痛的领悟。爬取免费代理自建IP池进行爬虫工作真的不可取。代理IP对于爬虫的作用,无异于水对鱼儿的作用,有了代理IP,爬虫就如鱼得水。而爬取免费代理IP,无异于提取一条污水沟进行加工过滤,最终得到一碗水,味道还不咋样,也不健康。