执行Apache nutch-2.2.1时出错

时间:2014-01-13 11:26:44

标签: java apache hadoop nutch

我已经在Ubuntu 12.04中安装了Nutch 2.2.1但是在执行命令时 ./nutch crawl urls / -dir download / -depth 3 -topN 5

我收到以下错误: -

InjectorJob:使用org.apache.gora.memory.store.MemStore类作为Gora存储类。 InjectorJob:过滤器拒绝的网址总数:0 InjectorJob:规范化和过滤后注入的URL总数:0 线程“main”中的异常java.lang.RuntimeException:作业失败:name = generate:null,jobid = job_local1165582916_0002     在org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)     在org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)     在org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)     在org.apache.nutch.crawl.Crawler.run(Crawler.java:152)     在org.apache.nutch.crawl.Crawler.run(Crawler.java:250)     在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)     在org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

1 个答案:

答案 0 :(得分:3)

不推荐使用Command / bin / nutch抓取功能。你应该使用/ bin / crawl。