标签: apache hadoop web-crawler nutch
我正在使用apache nutch 2.3从web抓取一些数据以及hadoop 1.2.1和hbase 0.94.14。我已经抓取了一些数据,现在当我的抓取工具启动时,它需要花费太多时间才能开始抓取。发电机工作约需50分钟,仅需1.5小时。这是什么问题。
我希望generatorjob应该花费最少的时间,而且抓取工作应该花费最多的时间。