注册
登录
提问时间:2019/8/7 14:04:27    楼主:未知网友   阅读量:44

作为一个爬虫工作者,深知反爬策略的烦人之处,也深知爬虫策略的重要性。如果有了优秀的爬虫策略,可以完美的应对目标网站的反爬虫策略,还需要代理IP吗?

有朋友这样问我,使用了代理IP能够突破反爬虫策略吗?这个问题的问的比较模糊,不好直接回答能还是不能。

常见的反爬策略确有很多种,比如访问频率,cookies,user_agent,reprefer,等等。如果您的访问频率非常快或者有规律,那么肯定会被识别爬虫,哪怕用了代理IP也无济于事,依然被封;如果cookies,user_agent,reprefer这些没有设置好,多次请求都是一样的,也有可能会被封,使用代理IP并不能突破反爬虫策略。

那么有人就会说了,我反反爬虫策略都调整好了,都可以突破反爬策略了,还需要代理IP做什么呢?我们知道,网站的反爬策略一般会有限制访问频率这一种,如果遵循这个策略,那么无疑要降低效率,对于一些小任务量的爬虫来说,也许不用代理IP就可以很好的完成任务了;但对于一些大任务量的爬虫来说,低效率工作不可能及时的完成任务,提高访问频率又会触发反爬策略,导致封IP,这样工作就没法进行下去了。

代理IP的作用并不是单纯的用来突破反爬虫策略,而是配合优秀的反反爬虫策略持续稳定的工作,可以多线程多并发的工作,或者分布式爬虫工作,有效的提高工作效率。