注册会员   登录
代理IP知识问答
解决爬虫的IP地址受限有什么方案没?
提问时间:2016-6-9 9:43:09    楼主:未知网友   阅读量:6104
1.我在用httpclient做爬虫时发现目标网站的单位时间段对ip地址请求次数有限制;
2.我在网上看到有人提出了http代理IP的方式来破解,求大侠们告诉我方法;
3.http代理IP的域名式代理是什么情况呢,比如说,有的代理IP地址是http://proxy1.proxysite.com,而不是普通的IP地址,我应该怎么使用这些
1楼(站大爷用户)

谢邀,我分解了楼主的原问题,发现其实是提了3个问题…
有很多网站为节省流量和防范攻击,限制单ip一分钟内允许的最大连接次数是很普遍的。您在网上找到的用代理IP来解决ip受限的问题,一般来说确实是可行的。
为什么说一般都可以呢,是因为您使用代理IP来发出的http请求其实已经被黑客们广泛使用,当您用巨量代理IP并开启大量线程向目标网站发起连接时,其实等于在ddos一样: 说白了就是cc攻击。一些比较大的网站,普遍都会对客户端IP的连接做鉴定,当发现客户端使用的是代理IP,这些网站都会有不同的限制策略,其中有一部分是降低每分钟来自该代理ip请求本站的次数,还有一部分会直接跳转到一个验证网页,要求客户端输入验证码以后才能继续访问网站,还有一些就比较暴力了,直接拒绝代理ip的访问。当然,大部分网站不会去判断客户端有没有用代理ip的,您可以随便用这个方法来多线程来采集目标站点的文章。当然,您也要有大量代理ip才行…
BTW,在发起代理ip的http请求之前,希望你认真构造好这个请求报文,要恰当的控制好每秒的请求次数,不要让目标站点以为你在攻击,然后导致您的所有代理IP都被封杀。
至于您所提的域名式的http代理IP,事实上它比http代理更加稳定,例如像http://proxy1.proxysite.com这样的域名背后肯定有多个ip地址,很显然用这种域名式代理向目标网站发出连接时,1个ip地址不能用了,它还会有剩下多个ip来帮你完成接下来的请求。所以,推荐您使用域名式代理IP来采集,当然,这也是CC攻击一般用的手段
友情链接 (合作QQ207309712):  每日免费代理IP  代理IP知识问答  网站地图


©CopyRight 2012-2016 站大爷实时更新代理IP平台 IP.ZDAYE.COM     客服QQ:207309712

站大爷代理IP交流群:417568497 (2群)    299784290 (1群已满)       爬虫开发者交流群:343030927

警告:本站资源仅限用来计算机技术学习参考及大数据爬虫应用等合法行为,用户所有操作行为均有日志记录存档并保留2个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。