注册
登录

如何应对网站反爬虫策略?如何高效地爬大量数据?

像一些大型的网站会有反爬虫策略…比如我之前在爬淘宝评论后很快就会被封,大概是短时间爬太多…有什么好的策略吗?比如代理?不过感觉代理也不能稳定吧… ...

怎样用python爬新浪微博大V所有数据?

想在新浪微博上爬某个大V的所有微博数据,现在考虑的是用新浪的API来爬(http://open.weibo.com/wiki/2/statuses/user_timeline),但是发现最多只能爬2000条,有什么方法能把所有的数据都爬下来吗?通过模拟登陆? ...

目前反爬虫机制有哪些手段,使用代理ip来规避的做法用nodejs具体要怎么做?

目前我初学爬虫,尽管简单的数据能抓下来,但是看了很多文章,里面有提到一些反爬虫的机制的,比如这两篇:互联网网站的反爬虫策略浅析Python简单抓取原理引出分布式爬虫这里面都提到了用ip来反爬虫,第二篇文章也提到了用代理池来避免,但是还是不大明白,这些代理ip如果用nodejs要怎么弄? ...

iPhone上的微信客户端为什么无法通过代理服务器连接网络?

在必须要通过代理服务器才能对外访问的网络环境中,只要在iPhone的Wi-Fi接入点中设置了代理服务器,多数应用都是可以顺利访问网络的。但是微信却无法登陆,有相似问题的还有飞信客户端等。个人猜想是因为iPhone接入点中设置的代理是HTTP代理,而微信使用了80/443以外的端口。可是微信内部又没有 ...

数据爬取,突破登录限制?

最近在写一个爬淘宝数据的程序,程序放到线上后遇到了问题;如果短时间访问数过大后淘宝需要登录校验。目前能想到的有2个方案:1,使用HTTP代理,更换IP2,突破淘宝登录,完成登录校验困惑:第1点问题在于,代理不稳定,因为淘宝规则原因,代理更换速度太快(使用一会就被屏了),找高质量代理不是很容易。第2点 ...

想做一个加密的代理服务器?

我是一名校园网用户,校园网会禁止学生访问论坛贴吧类的网站,无论是通过ip或者域名都无法访问,后来我想到了代理服务器,但同样是无法访问,可能是学校的监测机制十分强大,不但监测源目的IP,同样检测了数据包中的内容,后来使用了VPN,确实能够成功访问禁止的网站,VPN之所以能访问大概是数据包加密了的缘故吧 ...

用户如何判断代理服务器的代理方式?高度匿名代理、普通匿名代理、透明代理

参考: 代理服务器根据匿名程度区分[编辑]高度匿名代理高度匿名代理会将我们的数据包原封不动的转发,在服务端看来就好像真的是一个普通客户端在访问,而记录的IP是代理服务器的IP。普通匿名代理普通匿名代理会在数据包上做一些改动,服务端上有可能发现这是个代理服务器,也有一定几率追查到你的真实IP。代理服务 ...

局域网路由设置问题,一个公网ip,多个无线路由器怎么设置?

现有一个比较混乱的局域网环境,大概描述一下:一个大院,一条光纤接入,光猫不能做路由器使用,所以光猫下连接一台无线路由器做局域网的主路由(主路由wan口固定ip接入外网)主路由下连接一台24口交换机24口交换机下连接若干台式机以及若干(大于5具体不详)个无线路由器,每个无线路由器下连接若干电脑或手机。 ...

新浪微博weibo.com只有一个ip是如何做分布式部署的?

用多个dns服务器查询,结果都是180.149.134.17,不像传统网站根据DNS服务器位置返回不同的结果,那么如何做到分布式部署? ...

有道云的http 网络代理地址。谁可知道?

因为网络有时不稳定,发现在设定选择栏有一个叫做 http的代理地址,但不知道它的ip和端口,有谁识吗? ...

两个ip在同一块网卡上如何指定特殊端口的数据包用特定ip地址?

系统为Ubuntu 14.04 我配置了两个ip地址在同一块网卡上,比如1.2.3.4和192.168.1.253我想让某个端口的数据包走指定的ip地址,比如邮件服务25端口数据包走192.168.1.253。如何设置?背景:主要公司的这个公网联通的路由比较特别,有两个wan ip。公司内部和外联系 ...

如何在 PC 机上测试移动端的网页?

如果用 HTML5 写的页面,想兼容 iOS、Android 平台的手机,在 PC 机上看有些效果可能不准确,但不可能在每个移动终端都放上去看下效果吧,一般用什么工具呢?模拟器?有没有更好的工具推荐?我知道可以用 Opera 移动版,还可以用 Safari 修改 UA 成 iPad,Chrome也 ...

如果家庭宽带只能分配内网 ip,会有什么影响?

当然这是传言。不过若是真的,会普通网民有什么影响?(重点在于对各种特殊上网技巧的影响) ...

安卓上如何设置代理软件的PAC?

PC端的SS代理可以做到从GFWlist更新PAC文件,但是安卓上貌似没有保持更新的方法,有没有什么软件或方法可以使安卓SS相关软件支持自动或者手动更新PAC文件? ...

JavaWeb应用如何判断用户真实IP?

首先最自然的想到是通过HttpServletRequest.getRemoteAddr();但是这里存在一个代理问题,即用户通过代理访问,那么这种方法就是获得代理的IP。因此如果某些场景如果对频率有限制,这样可能会造成误伤(使用同一个代理的人因为一个人超过频次限制而全部人被限制访问)。再次通过查找资 ...

152篇,每页15篇   1 2 3 4 5 6 7 ... 11  下一页   刷新