为什么apache nutch Generatorjob需要这么多的时间

时间:2015-05-04 05:00:36

标签: apache hadoop web-crawler nutch

我正在使用apache nutch 2.3从web抓取一些数据以及hadoop 1.2.1和hbase 0.94.14。我已经抓取了一些数据,现在当我的抓取工具启动时,它需要花费太多时间才能开始抓取。发电机工作约需50分钟,仅需1.5小时。这是什么问题。

我希望generatorjob应该花费最少的时间,而且抓取工作应该花费最多的时间。

0 个答案:

没有答案