注册
登录
提问时间:2019/5/23 15:43:02    楼主:未知网友   阅读量:90

对于爬虫初学者来说,在爬虫工作中可能会遇到很多问题,最常见的封IP问题,代理IP选择及使用问题,反爬虫问题等等。想要更好的完成日常的爬虫工作,有必要多了解一些代理IP的知识,以及反爬知识。

一、代理IP的匿名度

代理IP按匿名程度来分,可分为透明、普匿、髙匿三种类型。

透明代理:目标服务器知道你用了代理,还知道你的真实IP。

普匿代理:目标服务器知道你用了代理,但不知道你的真实IP。

髙匿代理:目标服务器什么都不知道。

对于爬虫来说,髙匿代理IP很重要,其他两种都会暴露用了代理IP的情形,很容易被封IP,哪怕你反反爬虫做的再好,被封还是没商量。免费代理IP、普通代理IP、开放代理IP等大都是透明、普匿两种,髙匿代理IP极少,做爬虫时要慎重选择,不能只考虑成本,站大爷所有代理IP产品都是髙匿代理IP。

二、代理IP的有效率及业务成功率

选择代理IP时经常会看到一个参数:有效率。很多代理IP服务商标明的有效率都挺高,基本都在95%以上,但当你实际用起来,发现并没有想象中的那么高。到底是什么原因呢?其实这个有效率都是指代理IP的连接有效率,并不是指业务成功率,这点要搞清楚,免得被误导。不同的业务有不同的成功率,反爬策略比较严格的网站,业务成功率会低很多。

三、代理IP的有效期及更新速度

代理IP有效期也有误解的地方,比如说某某服务商的代理IP有效期说有10分钟,但实际你提取出来时发现,并没有10分钟,用了2分钟就失效了,这是为什么呢?这是因为当IP更新出来是有效期10分钟,但被你提取出来时,它已经在IP池里呆了8分钟了,惊不惊喜?所以,这个在购买前也要问清楚,免得不匹配自己的业务。站大爷的短效优质代理IP有效期是6分钟,但在提取IP时筛选排除了有效期3分钟以下的代理IP,所以提取出来的IP都是3-6分钟的有效期。

四、代理IP池的大小及并发

很多朋友总觉得代理IP池太大是浪费,问有没有小点的IP池,说用不了那么多,然后价格便宜一些。其实这样想是错误的,IP池越大,那么IP的新鲜度就越高,复用率就越低,被反爬的几率就更小,反之,IP池越小,复用率越高,反爬几率更大。

这里说的并发是指单个IP发送请求的最大并发,很多朋友误以为是调用API的并发,其实现在大部分API调用都设有最短时间间隔,少则1秒,多则10秒,所以就不存在多并发调用API,如果业务需要多并发调用API,可以考虑在本地建立一个IP池。站大爷的短效优质代理是不限制IP发送请求的并发的,但我们要知道,并发越大越慢甚至超时,所以这个需要自己去测试,控制在一个最佳范围内,这样才能更高效的工作。

以上就是需要了解的一些代理IP的知识,在选择代理IP的时候需要多了解一些情况,这样才能更加匹配自己的业务,提高工作效率。