有人知道一个很好的可扩展的开源网络爬虫吗?

时间:2009-06-24 17:29:04

标签: open-source web-crawler

爬虫需要具有可扩展的体系结构以允许更改内部进程,例如实现新步骤(预解析器,解析器等等)

我找到了Heritrix项目(http://crawler.archive.org/)。

但还有其他不错的项目吗?

5 个答案:

答案 0 :(得分:14)

Nutch是免费抓取工具的最佳选择。它基于Lucene的概念(以企业缩放的方式)构建,并由Hadoop后端使用MapReduce(类似于Google)支持进行大规模数据查询。好产品!我目前正在阅读Manning中新的(尚未发布的)Hadoop in Action中的Hadoop。如果你走这条路线,我建议你去他们的技术评审小组获得这个标题的早期副本!

这些都是基于Java的。如果你是一个.net人(像我一样!!)那么你可能对Lucene.NETNutch.NETHadoop.NET更感兴趣,它们都是逐类的,api是api端口的C#。

答案 1 :(得分:4)

您可能还想尝试Scrapy http://scrapy.org/

指定和运行抓取工具非常简单。

答案 2 :(得分:1)

Abot是一个很好的可扩展的网络爬虫。该架构的每个部分都是可插拔的,可让您完全控制其行为。它的开源,免费供商业和个人使用,用C#编写。

https://github.com/sjdirect/abot

答案 3 :(得分:0)

我最近发现了一个名为 - Nutch

答案 4 :(得分:0)

如果你没有被平台限制,我过去曾经有Nutch的非常好的经历。

它是用Java编写的,与Lucene索引器密切相关。