注册
登录

使用代理IP后爬虫工作遇到403怎么办

很多朋友会遇到这样一个问题,使用代理IP访问目标网站,并且已经设置过了user-agent,获取的新IP能够正常访问,不过过一小段时间之后,就会出现大量403,这是咋回事呢。想着会不会是因为cookie的原因,于是给每个代理IP都设置了该IP第一次访问的时候保存对应cookie,后续访问使用对应的c ...

选择独享IP还是共享IP,我该怎么抉择

无论你是做网站、发帖、注册、投票,还是爬虫、补量、数据采集,代理IP都是必不可少的,而大多数代理IP提供商都是共享IP池,少有的几家提供独享IP池,那么选择独享IP还是共享IP呢?想要知道如何选择,先要分析它们各自的优缺点,再根据自己的项目需求再决定,俗话说,没有最好的,只有更适合的。一、价格。很多 ...

盘点应用层反反爬虫的几种常见技术

一、 前端逆向前端逆向,就是利用前端所有代码、数据都是暴露给客户端的特点, 通过分析HTML、JS等源码来获取数据的技术。 常用的前端逆向工具就是Chrome Debug 工具。前端逆向分析通常用来分析那些动态渲染的网站。 如果分析透彻,可以避免使用浏览器模拟的方式来进行爬取。二、 浏览器模拟浏览器 ...

盘点基于现代浏览器的应用层反爬、及反反爬技术

在HTTP层之上是应用层,HTTP层上的数据最终会交由浏览器或者APP去渲染、执行。 本文重点讨论基于现代浏览器的应用层反爬、及反反爬技术。1、 验证码验证码(CAPTCHA)是一种古老而有效的方式,用来判别请求方是否是人类。从最初的简单数字验证码、到后来的中文验证码,到现代的图片验证码, 验证码是 ...

一个请求过来到响应完成到底经历了什么

一、首先是关于HTTPS的请求通过POST的方式经过HTTPS协议发送到服务器端。HTTPS本身并非协议,而是标准的HTTP协议架在SSL/TLS协议之上的一种结构。由于HTTP协议是基于TCP/IP进行通讯的,所以HTTPS必须暴露IP和端口,这部分不加密。HTTPS需要在服务器端生成私钥,我们服 ...

学习爬虫前需要了解哪些基础知识

一、字符串知识点:bytes:二进制(互联网上数据都是以二进制的方式传输的)str:unicode编码的呈现形式,常用的实现方式是UTF-8str转换为bytes的方法:encode()bytes转换为str的方法:decode()二、HTTP与HTTPS知识点:HTTP:超文本传输协议,默认端口号 ...

浅析http与https以及客户端HTTP请求

HTTP: 一种发布和接受HTML页面方法,端口号为80;HTTPS: HTTP的安全版,在HTTP上加入了SSL层,端口号为443;SSL: 用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。网络爬虫可以理解为模拟浏览器操作的过程,浏览器的主要功能是向服 ...