用于图像爬行的最佳开源,可扩展爬虫

时间:2009-07-28 00:59:50

标签: language-agnostic web-crawler

我们正处于项目的起始阶段,目前我们在想 是否哪种爬虫是我们的最佳选择。

我们的项目:

基本上,我们将设置Hadoop并抓取网页以获取图片。 然后,我们将在存储在HDFS中的图像上运行我们自己的索引软件 基于Hadoop中的Map / Reduce工具。我们不会使用其他索引 比我们自己的。

一些特别的问题:

  • 哪种抓取工具最能处理图像抓取?
  • 哪种抓取工具最适合我们的分布式抓取系统 使用许多服务器一起进行爬行?

现在这些看起来像3个最佳选择 -

  • Nutch:已知规模。看起来不是最佳选择,因为它似乎与文本搜索软件紧密相关。
  • Heritrix:也是鳞片。这个目前看起来是最好的选择。
  • Scrapy:尚未大规模使用(不确定)。我不知道它是否具有URL规范化等基本内容。我想使用这个,因为它是一个python框架(我比python更喜欢java),但我不知道他们是否已经实现了网络爬虫的高级功能。

要点:

我们需要从网络上获取尽可能多的图像。哪个现有的爬网框架既可扩展又高效,而且最容易修改以获取图像?

谢谢!

2 个答案:

答案 0 :(得分:2)

http://lucene.apache.org/nutch/

我认为使用最广泛的用途和支持(社区支持)将是更好的方法。

答案 1 :(得分:0)

Nutch可能是个不错的选择,因为你想要最终使用HDFS。查看当前正在进行的HBase集成(NUTCH-650)可能很有用。

您可以通过跳过最后的索引步骤来获取所需的数据,而不是查看段本身。

然而,为了灵活性,另一个选择可能是机器人:http://incubator.apache.org/droids/。它还处于apache的孵化阶段,但值得一看。

您可以通过查看org.apache.droids.examples中的SimpleRuntime示例获得一些想法。也许将Sysout处理程序替换为将图像存储到HDFS上的处理程序可能会给你你想要的东西。