注册会员   登录
代理IP知识问答
零基础如何学爬虫技术?
提问时间:2016/11/9 10:04:58    楼主:未知网友   阅读量:2043
在互联网企业做市场分析,常常需要或许大量的数据。但是在VBA、写代码等方面等同于零基础。想要从头开始自学爬虫技术可能吗?应该是什么样的步骤?有哪些资源现在可以用?
1楼(未知网友)

还需要看看 怎么应对反爬虫
2楼(未知网友)

写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。
3楼(未知网友)

可以看一下这个知乎专栏:数据工厂,里面都是爬虫教程
数据工厂 https://zhuanlan.zhihu.com/data-factory
4楼(未知网友)

1、所有大牛都是从0起步的。所以0基础不是问题,进度有可能是问题。你已经在工作,不知道工作能否允许或等到你学成
2、进度、成本、质量会构成一个不可能三角。即不可能同时把三方面都做到最好,必须有所取舍。成人学习,先明确目的,再列计划,再执行。你的目的是解决生活中一个特定问题还是要成为爬虫(代码)高手。这点区别非常大。
3、动起来,不管用哪个资料认真的照着做。
4、学会自己找资料。说句可能得罪人的话,本问题其实不应该存在。搜索引擎搜索或知乎搜索,应该能找到足够的信息。
5楼(未知网友)

零基础。。。负基础都是有可能的,区别就是需要付出的时间与精力成本的多少罢了。。。
首先你得先学一门编程语言,理解编程的思维,然后再打爬虫知识的基础,
打个比方,想使用方程组或者微积分解决问题,你总得先学加减乘除;
只是为了爬虫的话,那python的确是目前较好的选择;
对于python我没什么发言权,但是抛开获取源数据补充一点就是:
爬虫的目的是数据,看题主的意思是要继续往大数据分析方向走的,那么数据存储也是重中之重,数据库数据储存这块其实水也是很深的,数据量大的话还是推荐使用mongo存储与普通批量查询和处理,同步solr方便进行分词查询;
当然这就已经是你拿到数据的后话了;

★☆★:这一点应该是最重要的,爬虫是节省人工的时间去获取数据,遵循的也是所见即所得,不管怎么说,在别人的网站上获取有价值的数据总得怀着感激的心情,爬虫代码友善一点,采集频率不是 必要的情况下尽量放缓,不要给目标网站造成过大的压力,这是底线

以上,如有需要再补充
6楼(未知网友)

不用管学什么,上去就是干。边干边学,就是进度没法保证。基础就是会Python,我觉得就够了。web什么的用到再看。我入门用的是3,用2资料多,我是有新不看旧。

没有编程基础,这没法帮你了 。先把Python基础练一遍
7楼(未知网友)

首先要自己会写代码。

学习爬虫可以从下面一些知识点入手学习。
1、http相关知识。
2、浏览器拦截、抓包。
3、python2 中编码知识,python3 中bytes 和str类型转换。
4、抓取javascript 动态生成的内容。
4、模拟post、get,header等
5、cookie处理,登录。
6、代理访问。
7、多线程访问、python 3 asyncio 异步。
8、正则表达式、xpath等
等等。。。。
还有scrapy requests等第三方库的使用。
请看看
Python爬虫联想词视频和代码 - 通过python学会编程 - 知乎专栏
友情链接 (合作QQ207309712):  代理IP知识问答  每日免费代理IP  好例子网  苏飞论坛   IT论坛   前端教程   源码论坛   我要自学网   电脑知识   个人博客   网站源码   python教程   微信办公   ps教程   C++技术网   代理云代理IP   网站模板   开源社区   程序员   浏览器哪个好   Swift   今时网   网站地图


警告:本站不搜集数据不存储数据,也不买卖数据,本站资源仅限用来计算机技术学习参考及大数据应用等合法行为,用户所有操作行为均有日志记录存档并保留6个月,用户若擅自利用本站资源从事任何违反本国(地区)法律法规的活动,由此引起的一切后果与本站无关。

©CopyRight 2012-2018    ICP备案:辽ICP备17012256号-2   增值电信经营许可证:辽B2-20180026   
 
客服QQ:207309712   投诉建议:2219765152    站大爷交流群:417568497    开发者交流群:343030927