来自:http://en.wikipedia.org/wiki/Web_crawler:
- Aspseek 是一个抓取工具,索引器和搜索引擎,用C编写并根据GPL许可
- arachnode.net 是使用SQL 2008和Lucene用C#编写的.NET网络爬虫。
- DataparkSearch 是根据GNU通用公共许可证发布的抓取工具和搜索引擎。
- GNU Wget 是一个用C语言编写的命令行操作的爬虫,并在GPL下发布。它通常用于镜像Web和FTP站点。
- GRUB 是一种开源分布式搜索爬虫,Wikia搜索(http://wikiasearch.com)用于抓取网络。
- Heritrix 是Internet Archive的档案质量抓取工具,专为存档大部分网络的定期快照而设计。它是用Java编写的。
- ht://挖掘在其索引引擎中包含一个网络抓取工具。
- HTTrack 使用网络抓取工具创建网站镜像以供离线查看。它是用C语言编写的,并在GPL下发布。
- ICDL Crawler 是一个用C ++编写的跨平台网页抓取工具,旨在使用计算机的免费CPU资源基于网站解析模板抓取网站。
- mnoGoSearch 是一个抓取工具,索引器和搜索引擎,用C编写并根据GPL许可
- Nutch 是一个用Java编写并在Apache许可下发布的爬虫程序。它可以与Lucene文本索引包一起使用。
- Pavuk 是一个命令行Web镜像工具,带有可选的X11 GUI爬虫,并在GPL下发布。与wget和httrack相比,它具有许多高级功能,例如基于正则表达式的过滤和文件创建规则。
- YaCy ,一个免费的分布式搜索引擎,建立在点对点网络的原则上(根据GPL许可)。
还有一些阅读:
Spidering Hacks 100 Industrial-Strength Tips & Tools:
Spidering Hacks为开发人员,研究人员,技术助理,图书管理员和高级用户撰写,提供有关抓取和抓取方法的专家提示。您将从一个速成课程开始,包括拼车概念,工具(Perl,LWP,开箱即用的实用程序)和道德规范(如何知道何时走得太远:什么是可接受的和不可接受的)。接下来,您将从数据库中收集媒体文件和数据。然后,您将学习如何解释和理解数据,将其重新用于其他应用程序,甚至构建授权接口以将数据集成到您自己的内容中。