注册
登录

爬虫工作中如何处理限制IP的问题

当我们爬取某网站时,爬着爬着,突然IP被封了,爬不了了,可谓相当的郁闷,如何解决这样的问题呢? 主要的办法有两种,一种是改变访问频率,尽量模拟用户行为,一种是使用大量的代理IP。 模拟用户行为主要是这三方面: 1、UserAgent经常换一换; 2、访问时间间隔设长一点,访问时间 ...

论选择代理IP的重要性

中国的互联网发展时间并不长,但发展速度无疑是众国家中最快的一个。伴随着大数据时代蓬勃发展,给各行各业带来了不少冲击和全新机遇。爬虫工作者作为大数据的数据来源的主要输出者,共效率非常重要,而最影响爬虫工作的效率的除了合理的程序设计,无疑是代理IP。 工欲善其事必先利其器,要想更有效的完成爬虫工作 ...

为什么要使用https代理IP,和HTTP代理有什么区别

现在越来越多的网站都采用了https协议,据说这样比较安全,导致曾经火爆的HTTP代理IP也有点力不从心了,很多用户都要求https代理IP了,这样才能更安全的上网了,那么这一切到底是为什么呢? HTTPS(Secure Hypertext Transfer Pr ...

为什么说使用代理IP上网更安全

我们知道,当我们上网时,我们的真实IP可能会被泄露,当被别有用心的人获取到时则可能会对我们造成一些伤害。而如果使用了代理IP上网后,则完美的隐藏了我们的本机真实IP,多加了一份安全保障。为什么说使用代理IP可以让上网更安全呢? 代理服务器的原理相当于一个连接客户端和远程服务器的一个“中转站”, ...

如何识别客户端是否使用了代理IP

随着互联网的发展,代理IP的需求也越来越大,代理IP的使用也越来越广泛。我们时常会有这样的疑问,该如何识别是否使用代理IP呢说到这里就有必要先说下代理IP的匿名级别了,代理IP的匿名级别分别有三种,透明代理、普通匿名代理、高匿名代理。 这三种匿名级别有什么区别呢?使用透明代理,代理服务器会将您 ...

使用代理IP访问https网站是否能保证数据的安全性

有朋友会有这样的疑问:使用代理IP访问https的网站,虽然浏览器会显示当前通信已经加密,但是由于使用的是代理IP,本机首先发送数据到代理服务器,代理服务器与https的网站之间是加密通信,代理服务器将我们需要的内容再发送到本机,而数据在本机和代理服务器之间的通信并不是经过加密的,这样是否就不安全了 ...

浅谈网络爬虫中的内容分析提取模块

请求headers的Accept-Encoding字段表示浏览器告诉服务器自己支持的压缩算法(目前最多的是gzip),如果服务器开启了压缩,返回时会对响应体进行压缩,爬虫需要自己解压。 过去我们常需要获取的内容主要来源于网页html文档本身,也就是说,我们决定进行抓取的时候,都是html中包含 ...

关于SSL的error问题如何解决

今天碰到一个requests.exceptions.SSLError EOF occurred in violation of protocol (_ssl.c749)的问题,查阅stackoverflow,才知道原来是reque ...

浅谈网络爬虫中的流程控制模块

所谓爬取流程,就是按照什么样的规则顺序去爬。在爬取任务不大的情况下,爬取的流程控制不会太麻烦,很多爬取框架都已经帮你做好了,如scrapy,只需要自己实现解析的代码。 但在爬取一些大型网站时,例如全网抓取京东的评论,微博所有人的信息,关注关系等等,这种上十亿到百亿次设置千亿次的请求必须考虑效率 ...

浅谈网络爬虫中的网络请求模块

我们常说爬虫其实就是一堆的http(s)请求,找到待爬取的链接,然后发送一个请求包,得到一个返回包,当然,也有HTTP长连接(keep-alive)或h5中基于stream的websocket协议。 所以核心的几个要素就是: 1、url 2、请求header、body 3、响应herder、 ...

浅谈爬虫的工作原理及三大模块

传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。 然后,它将根据一 ...

两种常见的反爬虫策略及应对方法

作为爬虫工作者来说,反爬虫策略是最大的敌人,它总是让你的爬取工作不那么顺利的完成,时不时给你添堵,找麻烦。于是,持久战开始了,今天反爬虫策略提升了,明天我就提升了爬虫策略,后天反爬虫策略再升级……爬虫与反爬虫之间的战争从来没有停过,这里分享两种最常见的反爬虫策略及应对方法。 从用户请求的Hea ...

浅谈几种比较常见的反爬虫策略及应对方法

自从有了爬虫工作者这个职业后,也就有了反爬虫策略来对付他们,从此,爬虫与反爬虫之间的战争开始了。所谓知己知彼方能百战百胜,那么有哪些比较常见的反爬虫策略呢,又该怎么对付它们呢? 有一种比较普通的反爬虫策略:通过cookie限制抓取信息,比如我们模拟登陆之后,想拿到登陆之后某页面信息,千万不要以 ...

如何应对一些网站的反爬虫策略

最为经典的反爬虫策略当属“验证码”了。因为验证码是图片,用户登录时只需输入一次便可登录成功,而我们程序抓取数据过程中,需要不断的登录,比如我们需要抓取1000个用户的个人信息,则需要填1000次验证码,而手动输入验证码是不现实的,所以验证码的出现曾经难倒了很多网络爬虫工程师。 解决方法: & ...

一手私密代理IP是做网络业务的最佳选择

随着网络的迅猛发展,越来越多的人投身于互联网行业,对于经常做网络业务的人来说,代理IP可是一大得力助手,为什么这么说呢?因为在做网络业务中,经常会遇到限制访问的情况,举个例子,当爬取一个页面太频繁了就会限制访问,当在一个平台短时间发了太多帖子就会删帖甚至封号,当遇到这样的问题就需要代理IP闪亮登场了 ...

23篇,每页15篇   1 2   刷新