注册会员   登录
代理IP知识问答
一、OpenWebSpiderOpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。授权协议: 未知开发语言: PHP操作系统: 跨平台特点:开源多线程网络爬虫,有许多有趣的功能。二、PhpDigPhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关 键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更 强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。授权协议: GPL开发语言: PHP操作系统: 跨平 ... 阅读全文
一、NWebCrawlerNWebCrawler是一款开源,C#开发网络爬虫程序,具有以下特性:1、可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹;2、统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存;3、Preferential crawler:用户可以设置优先级的MIME类型;4、Robust: 10+ URL normalization rules, crawler trap avoiding rules。授权协议: GPLv2开发语言: C#操作系统: Windows特点:统计信息、执行过程可视化。二、Sinawler国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉 ... 阅读全文
很多人只知道Https比Http更安全,至于为什么更安全,那就不太清楚了,因为别人都这么说。其实,Https就是在Http基础上通过SSL协议进行加密之后的网络传输,并通过非对称和对称加密算法来对密码和数据进行加密。我们先来看一张图,再辅以说明其通信过程:1、Client明文将自己支持的一套加密规则、一个随机数(Random_C)发送给Server。2、Server返回自己选择的加密规则、CA证书(服务器地址、加密公钥、证书颁发机构)以及一个通过加密规则和HASH算法生成的随机数(Random_S)。3、Client收到Server的消息之后会有以下行为:a、验证证书(地址是否是正在访问的、机构是否合法的);b、自己生成一个随机的密码(Pre_master)并使用CA证书中的加密公钥进行加密 ... 阅读全文
我们经常听到别人说抓包什么的,听起来好高端的样子,其实了解了流程也并不难,这里以Charles抓包工具为例进行揭秘。1、打开界面如下2、清除列表,让抓包更清晰3、以CSDN博客为例,抓取所需要的包4、分析所抓到的包5、分析Request其中,比较重要的是cookies,网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。6、分析Response7、分析Cookiesa、获取Cookie的时候首先需要保证我们的浏览器环境是干净的,这里说的干净其实就是清除当前浏览器保存的Cookie,并重启浏览器。b、重启之后我们访问CSDN,当前Host的Request中就不包含Cookie,那么Cookie在哪呢,其实细心点的会发现Cookie在Response的H ... 阅读全文
一、hispider严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist)。1、特征和用法:a、基于unix/linux系统的开发b、异步DNS解析c、URL排重d、支持HTTP 压缩编码传输 gzip/deflatee、字符集判断自动转换成UTF-8编码f、文档压缩存储g、支持多下载节点分布式下载h、支持网站定向下载(需要配置 hispiderd.ini whitelist )i、可通过 http://127.0.0.1:3721/ 查看下载情况统计,下载任务控制(可停止和恢复任务)j、依赖基本通信库libevbase 和 ... 阅读全文
说起Python,可谓是耳熟能详,这几年来很火的一种编程语言,大都数人都用它来入门爬虫,就连我也不例外,今天我们来看看几款Python开源爬虫软件工具。一、QuickReconQuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统。授权协议: GPLv3开发语言: Python操作系统: Windows、 Linux特点:具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能。二、PyRailgun这是一个非常简单易用的抓取工具。支持抓取javascript渲染的页面的简单实用高效的py ... 阅读全文
通常,Web服务器一直使用指定端口(默认为80端口)监听客户端的请求。请求由客户端发起,创建一个到服务器指定端口的TCP连接。一旦收到请求,服务器会向客户端返回一个状态,比如“HTTP/1.1 200 OK”,以及返回的内容,如请求的文件、错误消息、或者其他信息,这就是服务器端的响应。一、常见的请求头1、 GET或POST:请求类型,后接请求资源、协议和版本2、 Host:主机和端口3、 Connection:是否使用持续连接4、 User-Agent:客户端浏览器的名称5、 Accept:浏览器可接受的MIME类型6、 Accept-Encoding:浏览器知道如何解码的数据编码类型7、 Accept-Language:浏览器指定的语言8、 Accept-Charset:浏览器支持的字符编 ... 阅读全文
说起反爬虫,你可能首先想到的是User-Agent+ Referer检测、账号及cookie验证、验证码、IP访问频率等等,这些对你来说那都不是事,你可以通过使用代理IP加上一些其他的手段进行完美的伪装,无限逼真似真人访问,然而,你以为这就高枕无忧了吗,且看脑洞大开的前端工程师的反爬手段吧。一、 FONT-FACE拼凑式实例:猫眼电影猫眼电影里,对于票房数据,展示的并不是纯粹的数字。页面使用了font-face定义了字符集,并通过unicode去映射展示。也就是说,除去图像识别,必须同时爬取字符集,才能识别出数字。并且,每次刷新页面,字符集的url都是有变化的,无疑更大难度地增加了爬取成本。二、BACKGROUND拼凑式实例:美团与font的策略类似,美团里用到的是background拼凑。 ... 阅读全文
在进行爬虫工作的时候,经常会遇到IP被封的问题,烦不胜烦,还好可以使用代理IP来解决这一个麻烦。代理IP哪里来,有人说,网上很多免费的,把它们收集起来就有了,有人说直接找代理IP服务商,比如站大爷,高效稳定,性价比高。不管代理IP从哪里来,我们为了方便使用,需要建立一个代理池,这里使用Redis和Flask维护一个代理池,Redis主要用来提供代理池的队列存储,Flask是用来实现代理池的一个接口,用它可以从代理池中拿出一个代理,即通过web形式把代理返回过来,就可以拿到可用的代理了。一、代理池的要求持续更新获取代理IP,定时筛选IP是否有效,提供接口,方便提取使用。二、代理池的架构架构最核心的部分是“代理队列”,我们要维护的就是这个队列,里面存了很多代理,队列可以用python的数据结构来 ... 阅读全文
大数据时代到来,爬虫作为重要的数据来源,越来越吃香,很多朋友纷纷入行,那么学习网络爬虫应该掌握哪些技术呢?一、学习Python基础知识(也可以是其他的语言,但Python入门爬虫是个不错的选择)Python爬虫的过程是按照“发送请求→获得页面反馈→解析并存储数据”三个流程进行的,可以根据所学Python基础知识,利用Python爬虫相关包和规则,进行Python爬虫数据抓取。二、学习非结构化数据存储爬虫抓取的数据结构复杂,传统的结构化数据库可能并不适合,需要选择合适的非结构化数据库,并且学习相关操作指令,进行相关非结构化数据库的操作!三、掌握一些常用的反爬技巧光会写爬虫还不够,得讲究策略,研究目标网站的反爬策略,知己知彼方能百战不殆。可以学习掌握代理IP池、抓包、验证码的OCR处理等操作,来 ... 阅读全文
我们知道,referer的作用就是记录你在访问一个目标网站时,在访问前你的原网站的地址, 比如用Chrome从知乎的某个板块到另外一个,那么你在的这个网站就是原网站,按F12,选中Network选项,从页面内进入一个网站,可以从这个网站的header即头信息中,看到referer就是原来的那个网站。由于referer是请求网页中,也就是发起HTTP请求中header的一部分,所以可以用来做网页的图片防盗链!比如一个网页的图,想用python下载到自己的电脑里,用urllib.request或者requests第三方库访问图片时,爬不下来, 这是因为python提交request申请的时候,就类似于在浏览器中的空地址栏里键入这个网页然后访问,没有referer,这时网站的设置比如是要求有ref ... 阅读全文
最近很多朋友反映站大爷代理IP工具V3.1版本出问题了,免费吸附一批代理IP后验证全都是无效的,经过技术的检查发现是验证网址需要同步更新下,鉴于问的朋友实在是太多,而又不太懂怎么同步验证设置,故有了此文,希望对各位朋友有所帮助。 一、打开软件后,找到“验证设置”单击进去。 二、选择网址(一定要选中)然后单击“修改蓝色选择的验证网址”。 三、可以看到“修改验证网址”对话框,单击下面的红色按钮“如果您没有明确需要验证某个网站,或者感觉设置已经失效时,可以点击这里同步为站大爷最新推荐设置”。 四、单击“修改验证网址”,然后单击“保存设置”,提示“是否确定执行此操作”,单击“是”即可。 ... 阅读全文
大数据时代来临,网络爬虫也日益火爆,各种爬虫框架也层出不穷,今天我们来看看三款常用的PHP爬虫框架,看看哪种更强大。一、 phpQuery优势:类似jquery的强大搜索DOM的能力。 pq()是一个功能强大的搜索DOM的方法,跟jQuery的$()如出一辙,jQuery的选择器基本上都能使用在phpQuery上,只要把“.”变成“->”,Demo如下(对应我的github的Demo5) require('phpQuery/phpQuery.php'); phpQuery::newDocumentFile('http://xxxxxx/');  $menu_a = pq("a");  ... 阅读全文
一、多线程。爬虫的工作量往往非常巨大,单线程太慢了,往往需要多线程,这里给个简单的线程池模板 这个程序只是简单地打印了1-10,但是可以看出是并发的。虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。from threading import Threadfrom Queue import Queuefrom time import sleep# q是任务队列#NUM是并发线程总数#JOBS是有多少任务q = Queue()NUM = 2JOBS = 10#具体的处理函数,负责处理单个任务def do_somthing_using(arguments):    print arguments#这个是工作进程,负责不断从队列取数据并处理 ... 阅读全文
在爬虫工作的过程中,我们总能会遇到一些问题,比如 407 authentication required ,这个是授权问题,比如,HTTP Error 403: Forbidden,这个可能是被反爬虫识别了,被目标服务器拒绝请求。那么403 Forbidden问题该怎么解决呢?这是很多朋友也会经常遇到的问题。如何做才不会被反爬虫识别呢?一、使用高匿代理IP。代理IP按匿名程度可以分为透明代理、普匿代理、高匿代理。透明代理会透露本机IP,普匿代理会透露使用了代理IP,这两者都会暴露使用了代理IP,很容易识别,高匿代理则不会暴露。二、尽量使用干净的代理IP。如果有很多其他人和你使用一样的IP同时访问一样的网站,那么也很容易被识别,当这些IP访问频率过快或者访问测试达到了目标网站的阈值时,则会被封 ... 阅读全文
535篇,每页15篇   1 2 3 4 5 6 7 ... 36  下一页   刷新
友情链接 (合作QQ207309712):  代理IP知识问答  每日免费代理IP  网站地图


警告:本站不搜集数据不存储数据,也不买卖数据,本站资源仅限用来计算机技术学习参考及大数据应用等合法行为,用户所有操作行为均有日志记录存档并保留6个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。

©CopyRight 2012-2018    ICP备案/ICP经营许可证:辽B2-20180026   VPN经营许可证:B1-20181940   
 
客服QQ:207309712   投诉建议:2219765152    站大爷交流群:417568497    开发者交流群:343030927