注册
登录
提问时间:2018/5/2 17:11:36    楼主:未知网友   阅读量:507

我们知道,爬虫是大数据时代的重要角色,发挥着重大的作用。但是,通往成功的路上总是布满荆棘,目标网站总是设置各种限制来阻止爬虫的正常工作。那么,目标网站一般是通过哪些方式来限制爬虫呢,爬虫又该如何突破这些限制呢?

一、cookie限制:很多网站都是要登陆后才能绕过filter才能访问,这时候必须模拟cookie

二、user-agent:有的网站为了防爬虫,必须要求是真正浏览器才能访问,这时候可以模拟 user-agent

三、请求加密:网站的请求如果加密过,那就看不清请求的本来面目,这时候只能靠猜测,通常加密会采用简单的编码,如:base64、urlEncode等,如果过于复杂,只能穷尽的去尝试

四、IP限制:很多网站,会对爬虫ip进行限制,这时候要么使用代理IP,要么伪装ip

五、曲线方案:对应pc端,很多网站做的防护比较全面,有时候可以改一下思路,请求app端服务试试,通常会有意想不到的收获。

网站的反爬策略在不断升级,而突破反爬虫的策略也要相应的不断升级,不然很容易被限制,而在提高爬虫工作效率上,代理IP是一大助力,大量的优质代理IP往往可以使爬虫工作事半功倍,站大爷代理IP平台专业提供HTTP代理IP、socks代理IP服务,欢迎广大顾客朋友们前来咨询。