注册会员   登录
代理IP知识问答
用Node.js做爬虫怎么突破Web服务的频率限制?
提问时间:2016/6/7 9:16:43    楼主:未知网友   阅读量:7663
这些天我用superagent做了一个node爬虫,用豆瓣电影序号(1000000-30000000)做索引来抓取豆瓣电影数据,可是运行一会儿,就报403错误了,如果一分钟只能爬40次太慢了,有什么解决方案能破解这个限制吗?
看看我的代码:

var superagent = require('superagent');
var k = 0;
var n = 200;
for (var i = 1; i < n; i++) {
superagent.get("www.douban.com")
.end(function (err, res) {
console.log(res.statusCode)
console.log(k++)
});
}

参考:

NodeJS学习:爬虫小探
SuperAgent - Ajax with less suck
1楼(匿名用户)



setTimeout()啊
2楼(未知网友)

豆瓣本来就对采集的频率有限制!除非你使用代理IP,不断切换代理IP
3楼(未知网友)

可以花一些钱,用动态IP来采集
友情链接 (合作QQ207309712):  代理IP知识问答  每日免费代理IP  网站地图


警告:本站不搜集数据不存储数据,也不买卖数据,本站资源仅限用来计算机技术学习参考及大数据应用等合法行为,用户所有操作行为均有日志记录存档并保留6个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。

©CopyRight 2012-2018    ICP备案/ICP经营许可证:辽B2-20180026   VPN经营许可证:B1-20181940   
 
客服QQ:207309712   投诉建议:2219765152    站大爷交流群:417568497    开发者交流群:343030927