应用错误收集

来自：http://en.wikipedia.org/wiki/Web_crawler：

Aspseek 是一个抓取工具，索引器和搜索引擎，用C编写并根据GPL许可
arachnode.net 是使用SQL 2008和Lucene用C＃编写的.NET网络爬虫。
DataparkSearch 是根据GNU通用公共许可证发布的抓取工具和搜索引擎。
GNU Wget 是一个用C语言编写的命令行操作的爬虫，并在GPL下发布。它通常用于镜像Web和FTP站点。
GRUB 是一种开源分布式搜索爬虫，Wikia搜索（http://wikiasearch.com）用于抓取网络。
Heritrix 是Internet Archive的档案质量抓取工具，专为存档大部分网络的定期快照而设计。它是用Java编写的。
ht：//挖掘在其索引引擎中包含一个网络抓取工具。
HTTrack 使用网络抓取工具创建网站镜像以供离线查看。它是用C语言编写的，并在GPL下发布。
ICDL Crawler 是一个用C ++编写的跨平台网页抓取工具，旨在使用计算机的免费CPU资源基于网站解析模板抓取网站。
mnoGoSearch 是一个抓取工具，索引器和搜索引擎，用C编写并根据GPL许可
Nutch 是一个用Java编写并在Apache许可下发布的爬虫程序。它可以与Lucene文本索引包一起使用。
Pavuk 是一个命令行Web镜像工具，带有可选的X11 GUI爬虫，并在GPL下发布。与wget和httrack相比，它具有许多高级功能，例如基于正则表达式的过滤和文件创建规则。
YaCy ，一个免费的分布式搜索引擎，建立在点对点网络的原则上（根据GPL许可）。

还有一些阅读： Spidering Hacks 100 Industrial-Strength Tips & Tools：

Spidering Hacks为开发人员，研究人员，技术助理，图书管理员和高级用户撰写，提供有关抓取和抓取方法的专家提示。您将从一个速成课程开始，包括拼车概念，工具（Perl，LWP，开箱即用的实用程序）和道德规范（如何知道何时走得太远：什么是可接受的和不可接受的）。接下来，您将从数据库中收集媒体文件和数据。然后，您将学习如何解释和理解数据，将其重新用于其他应用程序，甚至构建授权接口以将数据集成到您自己的内容中。

是否有一种用于抓取网络数据的流行工具？

1 个答案: