注册会员   登录
代理IP知识问答
要从一个网站抓几个页面,但是抓到第500多个的时候,被对方屏蔽了ip好像。最终用了迅雷,有没有什么不这么2办法?
提问时间:2016/6/27 12:05:45    楼主:未知网友   阅读量:5098
详情如下:
要从一个政府网站上抓他们的公告,结果轻敌了。抓到500多,python卡在那不走了。好像因为我太原始的抓法被人屏蔽了。

不过我已经先处理好了 链接列表,所以,后来祭出了迅雷解决了。

但是还是心有不甘啊。。

这种事情的处理方式该是怎么样的啊?

我是半路出家的,佛法不行。求质点,批评。

附我的方法如下:
遍历了他们的公告页面->正则提取了所有的公告网址->准备了1个代理ip->然后开动,读取吧.

一开始不设代理,20个就卡住不让访问了.加上代理,走到500了,我还以为好点,谁知道还是停了.
大致如此.

虽然现在凶残的迅雷已经给我拿到2300多个页面了.但是还是不甘心, 要是自己写个能成功抓的,大概得看什么东西啊?
求指点.. 真心不想每次都开迅雷啊,太2 了感觉.
1楼(未知网友)

迅雷有什么2的?这不是挺好的解决问题的办法么。从工程角度,用迅雷是性价比极高的方式,不2。
想用python解决的话,想到的简单办法就是换代理。从网上找代理列表,每次卡住后就换代理,这块的开发成本也比较低
2楼(未知网友)

只针对一个网站的话,租几个Proxy,抓完了就退掉呗:)
3楼(未知网友)

偶尔可以完全突破些较烂的防采集机制的方法:

1. 伪装Useragent并随机轮换
2. 伪装Uesragent为Baiduspider
3. 伪装IP

其实量很小的情况下,也或许可以隔几秒抓一次,睡一觉之后也完成了。
4楼(未知网友)

伪装UserAgent为主流浏览器,或主流搜索引擎;

伪装refer为网站主页;
控制速率;
设置一些常用的http header, 如:Accept,Accept-Charset,Accept-Encoding,Accept-Language
如果可设置cookie,尽量设上

做好这几步,除了你的程序不能运行js和渲染页面外,基本就是一个浏览器了
友情链接 (合作QQ207309712):  每日免费代理IP  代理IP知识问答  网站地图


©CopyRight 2012-2017    辽ICP备17012256号-2   
 
客服QQ:207309712   投诉建议:2219765152    站大爷代理IP交流群:417568497    爬虫开发者交流群:343030927

警告:本站资源仅限用来计算机技术学习参考及大数据爬虫应用等合法行为,用户所有操作行为均有日志记录存档并保留2个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。