我们正处于项目的起始阶段,目前我们在想 是否哪种爬虫是我们的最佳选择。
我们的项目:
基本上,我们将设置Hadoop并抓取网页以获取图片。 然后,我们将在存储在HDFS中的图像上运行我们自己的索引软件 基于Hadoop中的Map / Reduce工具。我们不会使用其他索引 比我们自己的。
一些特别的问题:
现在这些看起来像3个最佳选择 -
要点:
我们需要从网络上获取尽可能多的图像。哪个现有的爬网框架既可扩展又高效,而且最容易修改以获取图像?
谢谢!
答案 0 :(得分:2)
http://lucene.apache.org/nutch/
我认为使用最广泛的用途和支持(社区支持)将是更好的方法。
答案 1 :(得分:0)
Nutch可能是个不错的选择,因为你想要最终使用HDFS。查看当前正在进行的HBase集成(NUTCH-650)可能很有用。
您可以通过跳过最后的索引步骤来获取所需的数据,而不是查看段本身。
然而,为了灵活性,另一个选择可能是机器人:http://incubator.apache.org/droids/。它还处于apache的孵化阶段,但值得一看。
您可以通过查看org.apache.droids.examples中的SimpleRuntime示例获得一些想法。也许将Sysout处理程序替换为将图像存储到HDFS上的处理程序可能会给你你想要的东西。