注册
登录

分享一些scrapy爬虫中的小技巧

对于Python爬虫开发者来说,对scrapy框架不会陌生,它是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。这里有一些scrapy使用的小技巧,新手们不妨了解下: ...

如何通过网络爬虫获取所需要的网站信息

我们知道,网络爬虫是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。那么,我们怎么通过网络爬虫获取所需要的网站信息呢?不同的网站有不同的规则,爬虫工程师根据这些规则设计不同的网络爬虫,以此来顺利获取所需要的信息。一、开放API的网站一个网如果开放了API,那么就可以直接GET到它的json数据 ...

如何通过requests使用代理IP进行爬虫工作

我们知道,一些网站会有相应的反爬虫措施,比如检测某些IP的访问次数或者访问频率,有些反人类的访问速度就会收到限制甚至封禁,所以在进行爬虫工作时也要讲究策略,比如使用代理IP,调整访问频率,设置UA等等,让我们来看看如何简单的使用代理IP。#!/usr/bin/env python# -*- codi ...

浅析Http协议中的requests的使用方法

一、requests的基本用法1、使用requests发起一个get请求,得到的response本身是一个对象,拥有很多的属性;response=requests.get(‘https://www.XXXXX.com’)2、如果源码的中文显示异常,可以使用以下方法进行重新编码一般都是utf8或者是g ...

盘点php开源爬虫软件工具有哪些

一、OpenWebSpiderOpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。授权协议: 未知开发语言: PHP操作系统: 跨平台特点:开源多线程网络爬虫,有许多有趣的功能。二、PhpDigPhpDig是一个采用 ...

你可能不知道的几款C#开源爬虫软件工具

一、NWebCrawlerNWebCrawler是一款开源,C#开发网络爬虫程序,具有以下特性:1、可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹;2、统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存;3、Preferential crawler:用户 ...

浅析Https协议的通信原理及加密算法

很多人只知道Https比Http更安全,至于为什么更安全,那就不太清楚了,因为别人都这么说。其实,Https就是在Http基础上通过SSL协议进行加密之后的网络传输,并通过非对称和对称加密算法来对密码和数据进行加密。我们先来看一张图,再辅以说明其通信过程:1、Client明文将自己支持的一套加密规则 ...

Python爬虫工程师是如何抓包分析的

我们经常听到别人说抓包什么的,听起来好高端的样子,其实了解了流程也并不难,这里以Charles抓包工具为例进行揭秘。1、打开界面如下2、清除列表,让抓包更清晰3、以CSDN博客为例,抓取所需要的包4、分析所抓到的包5、分析Request其中,比较重要的是cookies,网站为了辨别用户身份、进行 s ...

可用于抓取数据的C开源爬虫工具有哪些

一、hispider严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist)。1、特征和用法:a、基于unix/linux系统的开发 ...

可用来抓取数据的几款Python开源爬虫软件工具

说起Python,可谓是耳熟能详,这几年来很火的一种编程语言,大都数人都用它来入门爬虫,就连我也不例外,今天我们来看看几款Python开源爬虫软件工具。一、QuickReconQuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone transfe、收集电子 ...

浅析HTTP协议的请求头和响应头响应体

通常,Web服务器一直使用指定端口(默认为80端口)监听客户端的请求。请求由客户端发起,创建一个到服务器指定端口的TCP连接。一旦收到请求,服务器会向客户端返回一个状态,比如“HTTP/1.1 200 OK”,以及返回的内容,如请求的文件、错误消息、或者其他信息,这就是服务器端的响应。一、常见的请求 ...

脑洞大开的前端工程师是怎样反击爬虫的

说起反爬虫,你可能首先想到的是User-Agent+ Referer检测、账号及cookie验证、验证码、IP访问频率等等,这些对你来说那都不是事,你可以通过使用代理IP加上一些其他的手段进行完美的伪装,无限逼真似真人访问,然而,你以为这就高枕无忧了吗,且看脑洞大开的前端工程师的反爬手段吧。一、 F ...

Python爬虫使用Redis和Flask维护动态代理池

在进行爬虫工作的时候,经常会遇到IP被封的问题,烦不胜烦,还好可以使用代理IP来解决这一个麻烦。代理IP哪里来,有人说,网上很多免费的,把它们收集起来就有了,有人说直接找代理IP服务商,比如站大爷,高效稳定,性价比高。不管代理IP从哪里来,我们为了方便使用,需要建立一个代理池,这里使用Redis和F ...

学习网络爬虫应掌握哪些技术

大数据时代到来,爬虫作为重要的数据来源,越来越吃香,很多朋友纷纷入行,那么学习网络爬虫应该掌握哪些技术呢?一、学习Python基础知识(也可以是其他的语言,但Python入门爬虫是个不错的选择)Python爬虫的过程是按照“发送请求→获得页面反馈→解析并存储数据”三个流程进行的,可以根据所学Pyth ...

关于网页referer的作用以及反爬虫的解决方法

我们知道,referer的作用就是记录你在访问一个目标网站时,在访问前你的原网站的地址, 比如用Chrome从知乎的某个板块到另外一个,那么你在的这个网站就是原网站,按F12,选中Network选项,从页面内进入一个网站,可以从这个网站的header即头信息中,看到referer就是原来的那个网站。 ...

20篇,每页15篇   1 2   刷新