应用错误收集

时间：2009-07-28 00:59:50

标签： language-agnostic web-crawler

我们正处于项目的起始阶段，目前我们在想是否哪种爬虫是我们的最佳选择。

我们的项目：

基本上，我们将设置Hadoop并抓取网页以获取图片。然后，我们将在存储在HDFS中的图像上运行我们自己的索引软件基于Hadoop中的Map / Reduce工具。我们不会使用其他索引比我们自己的。

一些特别的问题：

现在这些看起来像3个最佳选择 -

Nutch：已知规模。看起来不是最佳选择，因为它似乎与文本搜索软件紧密相关。
Heritrix：也是鳞片。这个目前看起来是最好的选择。
Scrapy：尚未大规模使用（不确定）。我不知道它是否具有URL规范化等基本内容。我想使用这个，因为它是一个python框架（我比python更喜欢java），但我不知道他们是否已经实现了网络爬虫的高级功能。

要点：

我们需要从网络上获取尽可能多的图像。哪个现有的爬网框架既可扩展又高效，而且最容易修改以获取图像？

谢谢！

答案 0 :(得分：2)

我认为使用最广泛的用途和支持（社区支持）将是更好的方法。

答案 1 :(得分：0)

Nutch可能是个不错的选择，因为你想要最终使用HDFS。查看当前正在进行的HBase集成（NUTCH-650）可能很有用。

您可以通过跳过最后的索引步骤来获取所需的数据，而不是查看段本身。

然而，为了灵活性，另一个选择可能是机器人：http://incubator.apache.org/droids/。它还处于apache的孵化阶段，但值得一看。

您可以通过查看org.apache.droids.examples中的SimpleRuntime示例获得一些想法。也许将Sysout处理程序替换为将图像存储到HDFS上的处理程序可能会给你你想要的东西。