注册
登录
提问时间:2019/4/3 15:15:53    楼主:未知网友   阅读量:263

在使用python爬虫的时候,经常会遇见所要爬取的网站采取了严格的反爬取机制。当高强度、高效率地爬取网页信息时,常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,那如何解决呢?唯有选择海量的代理IP资源,正所谓:封了一个IP,还有千千万万个IP。

那么从哪里获取海量的代理IP资源呢?万事不忘找百度,百度一搜,大把大把的代理IP资源,很多很多免费的代理IP,还有很多很多的代理IP供应商,我们应该如何选择呢?

经过归纳总结,代理IP大概可以分为四种:免费代理IP,普通代理IP池,共享IP池和独享IP池。这四种有什么区别呢?免费代理IP是互联网上分享出来的,不用授权,谁都可以用。正因为谁都可以用,导致免费代理IP大都数不可用,被用烂了。普通代理IP或者说开放代理IP其实也是免费代理IP,通过采集免费代理IP,经过初步的验证筛选,放入一个IP池里,通过API提取使用,这种代理IP的有效率也高不到哪里去,一般是1-40%左右,被人称为“万人骑”。共享IP池则是代理IP供应商通过机房拨号VPS搭建出来的IP池,然后卖给不同的客户使用,这种IP有效率较高,大多数付费代理IP都是这种,IP池的大小和用的人数决定了业务的成功率。独享IP池是一个人使用一个IP池,完全独有的拨号服务器池,不断重拨获取海量IP!

从成本考虑,选择的优先级是:免费代理IP>普通代理IP>共享IP池>独享IP池。免费代理IP基本是没有成本的,只是写几段代码爬取、验证一下,至于多少能用,心里有数;普通代理IP的成本也非常低,几块钱一天,几十块钱一个月,可以拥有大把大把的代理IP,至于有多少可用,看运气;共享IP池的成本稍微高一些,目前市场上基本都是这种,有各种限制,比如提取间隔,每次获取IP数量,使用并发等等;独享IP池的成本比较高,目前市场上仅有几家在卖,还有一大部分都是打着独享IP池的幌子在骗人,选择时要擦亮眼睛。

从效率考虑,选择的优先级是:独享IP池>共享IP池>普通代理IP>免费代理IP。独享IP池一个人使用,就像一条高速公路只有一个人开,没有人影响,效率自然高;共享IP池多人使用,就像一条公路,很多辆车,通过红绿灯和交通规则的限制,效率比独享IP池低一点;普通代理IP和免费代理IP则是成千上万人使用,也没有规则限制,就像没有交通规则的道路上,成千上万辆汽车横冲直撞,那画面太美不敢想象。

很多时候,我们选择代理IP都是从成本和效率来考虑的,但有时候我们不会仅仅考虑一方面,会通过成本和效率综合来考虑,最后做出最适当的选择。