注册会员   登录
代理IP知识问答
浅谈爬虫与反爬虫的一些技术
提问时间:2017/9/1 13:41:37    楼主:未知网友   阅读量:327
现如今因为搜索引擎的流行,网络爬虫已经成了很普及网络技术了,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都会有做自己的搜索引擎,有叫得出来名字得就几十种,就更不用说还有各种不知名的小小的爬虫了。对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。

一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十上百个请求循环重复抓取,这种爬虫对中小型网站往往是毁灭性的打击,特别是一些缺乏爬虫编写经验的程序员写出来的爬虫破坏力极强,造成的网站访问压力会非常大,会导致网站访问速度缓慢,甚至有可能无法访问。

现在的网站一般会从三个方面来反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式.前两种是比较容易遇到的,所以大多数网站都从这些角度来反爬虫。第三种会有一些应用ajax的网站会采用,这样就增大了爬取的难度,减少了初级爬虫的爬取麻烦,同时也不会阻止到一些搜索引擎的爬取。

通过Headers反爬虫:从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。

站大爷专业提供适合爬虫业务的HTTP代理IP、https代理IP和Socks5代理IP服务,欢迎广大朋友前来咨询。
友情链接 (合作QQ207309712):  代理IP知识问答  每日免费代理IP  好例子网  苏飞论坛   IT论坛   前端教程   源码论坛   我要自学网   电脑知识   个人博客   网站源码   python教程   微信办公   ps教程   C++技术网   代理云代理IP   网站模板   开源社区   程序员   浏览器哪个好   Swift   今时网   网站地图


警告:本站不搜集数据不存储数据,也不买卖数据,本站资源仅限用来计算机技术学习参考及大数据应用等合法行为,用户所有操作行为均有日志记录存档并保留6个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。

©CopyRight 2012-2018    ICP备案:辽ICP备17012256号-2   增值电信经营许可证:辽B2-20180026   
 
客服QQ:207309712   投诉建议:2219765152    站大爷交流群:417568497    开发者交流群:343030927