注册
登录
提问时间:2018/9/20 14:59:02    楼主:未知网友   阅读量:273

一、NWebCrawler

NWebCrawler是一款开源,C#开发网络爬虫程序,具有以下特性:

1、可配置:线程数,等待时间,连接超时,允许MIME类型和优先级,下载文件夹;

2、统计信息:URL数量,总下载文件,总下载字节数,CPU利用率和可用内存;

3、Preferential crawler:用户可以设置优先级的MIME类型;

4、Robust: 10+ URL normalization rules, crawler trap avoiding rules。

授权协议: GPLv2

开发语言: C#

操作系统: Windows

特点:统计信息、执行过程可视化。

二、Sinawler

国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。

登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。

该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQL SERVER作为后台数据库,并提供了针对SQL Server的数据库脚本文件。

另外,由于新浪微博API的限制,爬取的数据可能不够完整(如获取粉丝数量的限制、获取微博数量的限制等)。

本程序的特点:

1、6个后台工作线程,最大限度挖掘爬虫性能潜力;

2、界面上提供参数设置,灵活方便;

3、抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息;

4、自动调整请求频率,防止超限,也避免过慢,降低效率;

5、任意对爬虫控制,可随时暂停、继续、停止爬虫;

6、良好的用户体验。

授权协议: GPLv3

开发语言: C# .NET

操作系统: Windows

三、spidernet

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件。

授权协议: MIT

开发语言: C#

操作系统: Windows

特点:以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据。

四、网络矿工

网站数据采集软件, 网络矿工采集器(原soukey采摘)。

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。

授权协议: BSD

开发语言: C# .NET

操作系统: Windows

特点:功能丰富,毫不逊色于商业软件。