注册会员   登录
代理IP知识问答
请问今日头条爬虫的特点是什么
提问时间:2016/6/7 8:02:36    楼主:未知网友   阅读量:6643
想知道他们爬虫请求数据的user-agent ,以及爬取的频率、时间段,假如公开这些东东是否会造成什么 影响?

我今天发现了今日头条www和app这两个子域名在不同的两个ip段。

app的IP地址在60.29.248.×上,我在我的日志文件里发现了这个IP段的5个ip地址,请求频率达到每小时140-200次,有两个不同的user-agent:


"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36"

"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:27.0) Gecko/20100101 Firefox/27.0"
1楼(站大爷用户)

UA可以模拟,IP地址可以用代理IP来模拟。

要防范爬虫不是一个容易的事情
2楼(匿名用户)

我采集过很多网站,遇见封IP的网站我都用代理IP来解决了,每分钟换1个IP,你觉得还能封我吗?
最有意思的一个项目是,每当有用户使用我的软件服务时,我可以利用用户的资源(账号和IP)去采集, 采集完以后自动回传过来。
3楼(未知网友)

从你发的UA来看,这2个是正常浏览器的UA呀。不过UA是可以自己定义的,爬虫作者故意去伪装这个UA的可能性不大,因为太低级了,很容易被发现
友情链接 (合作QQ207309712):  代理IP知识问答  每日免费代理IP  好例子网  苏飞论坛   IT论坛   前端教程   源码论坛   我要自学网   电脑知识   个人博客   网站源码   python教程   微信办公   ps教程   C++技术网   代理云代理IP   网站模板   开源社区   程序员   浏览器哪个好   Swift   今时网   网站地图


警告:本站不搜集数据不存储数据,也不买卖数据,本站资源仅限用来计算机技术学习参考及大数据应用等合法行为,用户所有操作行为均有日志记录存档并保留6个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。

©CopyRight 2012-2018    ICP备案:辽ICP备17012256号-2   增值电信经营许可证:辽B2-20180026   
 
客服QQ:207309712   投诉建议:2219765152    站大爷交流群:417568497    开发者交流群:343030927