注册
登录
提问时间:2019/8/11 15:14:09    楼主:未知网友   阅读量:87

如果一个固定的ip在短暂的时间内,快速大量的访问一个网站,那自然会引起注意,网站管理员可以通过一些手段把这个ip给封了,爬虫程序自然也就做不了什么了。

比较好的解决方法是使用代理IP池,简单的说,就是通过ip代理,使用不同的ip进行访问,这样就不会被封掉ip了。

常见的爬虫Python爬取数据技术之代理IP策略

可是ip代理的获取本身就是一个很麻烦的事情,网上有免费和付费的,但是质量都层次不齐。免费代理ip的质量非常差,速度慢,稳定性差,有效率低下;付费代理IP又分为共享IP池和独享IP池,共享IP池多人共享,无法避免业务冲突,但IP池大,IP量多;独享IP池一人独享,可以有效避免业务冲突,速度快,稳定性好,但IP池小,ip量少,价格昂贵。

以站大爷代理IP平台为例,站大爷也提供免费代理IP,还提供免费代理IP工具供使用。当然,站大爷也提供付费代理IP,分别是短效优质代理IP,一手私密代理和独享IP池。短效优质代理IP池是共享IP池,日流水量40万左右,有效期3-6分钟,对于爬虫来说足够用了;一手私密代理也是共享IP池,但会项目隔离,不同的业务将会备注隔离域名,尽量避免业务冲突,日流水量1万左右,一次可用IP几百个,有效期1-4小时左右;独享IP池,日流水量主要由拨号服务器数量和重拨周期决定,比如拨号服务器数量5,重拨周期6分钟(最短可设置2分钟,最长2天),一天最多可以有10*24*5=1200个IP,IP量相对于短效优质代理IP来说,会少很多。

代理IP如何选择主要看业务场景要求,如果需要代理IP量大,推荐选择短效优质代理IP,如果需要业务不冲突,IP量要求不太高,可以考虑独享IP池,需要同时使用很多个IP,可以考虑一手私密代理IP。