应用错误收集

为什么apache nutch Generatorjob需要这么多的时间

时间：2015-05-04 05:00:36

标签： apache hadoop web-crawler nutch

我正在使用apache nutch 2.3从web抓取一些数据以及hadoop 1.2.1和hbase 0.94.14。我已经抓取了一些数据，现在当我的抓取工具启动时，它需要花费太多时间才能开始抓取。发电机工作约需50分钟，仅需1.5小时。这是什么问题。

我希望generatorjob应该花费最少的时间，而且抓取工作应该花费最多的时间。

0 个答案:

没有答案