注册
登录
提问时间:2018/8/27 16:39:12    楼主:未知网友   阅读量:321

在进行爬虫工作的过程中,就是与反爬虫作斗争的过程,可以这样说,没有遇到反爬的工程师,不是好的爬虫工程师。有很多问题我们经常遇到,今天就来盘点几个常见的反爬策略。

一、爬取某网站时,提示“由于访问频繁,需要通过验证码才能访问页面”

解决方法:网站通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。

在Scrapy中,我们可以在爬虫项目的setting.py文件中进行设置,将setting.py中的下面两行代码里的“COOKIES_ENABLED = False” 的注释去掉即可。

二、爬取过快也会遭到封杀,设置下载延时

部分网站通过分析我们的爬取频率对爬虫进行禁止或限制,所以我们需要控制爬取时间间隔。在Scrapy中同样是在setting.py文件中进行设置。我们可以设置随机间隔时间,这样就毫无规律,不容易被发现。

三、设置用户代理池

不管爬虫策略和反反爬虫策略做的多么的好,还是必须要用到代理IP,没有代理IP,只能玩玩泥巴,寸步难行。如何搭建代理池呢?方法有很多,最直接最省力的方法就是购买代理IP,比如站大爷平台提供的短效优质代理和一手私密代理,都是不错的选择。