注册会员   登录
代理IP知识问答
搜狗的反爬虫策略?
提问时间:2016/8/2 9:16:23    楼主:未知网友   阅读量:5098
最近在做搜狗微信的爬虫,发现搜狗的反爬虫策略并不是封IP而是针对cookie,但是我每次用不同的cookie还是不行。而在浏览器中访问,用浏览器产生的cookie放在程序中,又可以爬取到内容了。。 有木有大虾,做过类似的。 怎么才能彻底的反搜狗的反爬虫策略。
1楼(未知网友)

我也遇到了这个情况,坐等大侠回复!
2楼(未知网友)

我也是,同样的程序昨天还能测试成功,今天得到的结果全是空集合,也没提示任何错误。。。
3楼(未知网友)

想问问怎么实现搜狗微信的数据爬取能给个demo吗 谢谢了?因为我发现我要爬的东西 不是静态的 可以帮帮我吗?
4楼(未知网友)

我也是,目前在想能不能用session来使cookie保持有效性。
5楼(未知网友)

我只抓取这个url :每的相关微信公众号 ,刚开始还可以,爬了几分钟就不行了,无法再抓取了,我尝试了用代理ip,更换cookie,感觉不稳定,还有就是微信公众号里的每篇文章的url都有时效性,我要是持续不断的抓取一篇文章,怎么克服url的时效性问题?望大神回复,谢谢
6楼(站大爷用户)

只要访问跳转链接的时候在cookie中带上SNUID值即可,其他的都不可以不要
7楼(站大爷用户)

如果你使用Python 可以使用cookiejar。
用其他语言也应该有类似的库来模仿浏览器对cookie的处理吧。
8楼(未知网友)

不要爬多了,抓多了就会着的。。。
友情链接 (合作QQ207309712):  每日免费代理IP  代理IP知识问答  网站地图


©CopyRight 2012-2017    辽ICP备17012256号-2   
 
客服QQ:207309712   投诉建议:2219765152    站大爷代理IP交流群:417568497    爬虫开发者交流群:343030927

警告:本站资源仅限用来计算机技术学习参考及大数据爬虫应用等合法行为,用户所有操作行为均有日志记录存档并保留2个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。