注册会员   登录
代理IP知识问答
现在的网络爬虫的研究成果和存在的问题有哪些?
提问时间:2016/8/20 12:36:03    楼主:未知网友   阅读量:4061
现在的网络爬虫的研究成果和存在的问题有哪些?
1楼(匿名用户)

visual scraper,不用写代码也能通过图形界面快速定义出一个爬虫来用,比如Portia。
2楼(未知网友)

一个个倒在商业模式面前,单纯兴趣永远不可能成事
3楼(未知网友)

首先有三个最需要解决的问题:

法律和道德风险:爬虫抓取其它网站数据,虽然抓取的内容大部分是公开的,但是商用或者有损源网站利益,于法于理都说不过去。目前我国(或者说大部分国家)针对互联网的方方面面法律覆盖度还远远不够。

访问速度与瓶颈:爬虫的访问速度依赖于网速(尤其是服务器出口带宽以及用户入口带宽)和开发者的水平,而大部分商业网站都会有反爬虫机制,其中最简单就是通过频率限制,复杂的则会加上很多维度的判断。如何高效抓取?如果数据量不大,则可以通过在两次请求间休息一段时间,如果数据量很大,则需要考虑有一套高效、可用的代理 IP 机制。
验证码:现在的验证码已经从简单的输入几个字母,变得复杂了很多,比如拖动滑块甚至是 Google 的 reCAPTCHA 这样基于机器学习的验证码模块。在识别验证码的开销与数据所能获得的收益之间,要找到一个平衡点。

剩下可能存在的问题:

如何不基于规则地解析数据:大部分网上的爬虫教程,都是讲如何发请求、如何抽取数据。对于特定网站这是可行的,但是对于几百上千个网站,这样的做法就实在太慢了,如何不基于规则而解析数据,才能达到高效获取数据(高效指的是开发效率,因为不需要针对特定网站单独实现规则)。
通用性与易用性:现有的所谓现成的采集工具,大多是不够通用易用的。那些采集工具,专业的看不上,小白依然不会,用户估计(没有调查,纯脑洞)大部分都是半吊子水平,代码写不出,但是又多少知道点。
数据变现:整体来讲,虽然抓取数据有很多门槛,但是其实想要从互联网抓数据还是非常容易的,如何让你抓下来的数据产生价值,这是一个难题。
其他:欢迎补充~
4楼(未知网友)

在工程中有这样一些问题,
1,快速频繁访问会被封IP,一般可通过代理和增加等待时间解决;
2,需要登录信息,例如微博,可通过携带cookie解决;
3,国内下载国外网站可以用国外代理;
4,网页解析,有比较成熟的各种库,常用的有python语言;
5,正文抽取
6,网页去重
友情链接 (合作QQ207309712):  每日免费代理IP  代理IP知识问答  网站地图


©CopyRight 2012-2017    辽ICP备17012256号-2   
 
客服QQ:207309712   投诉建议:2219765152    站大爷代理IP交流群:417568497    爬虫开发者交流群:343030927

警告:本站资源仅限用来计算机技术学习参考及大数据爬虫应用等合法行为,用户所有操作行为均有日志记录存档并保留2个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。