我已经在Ubuntu 12.04中安装了Nutch 2.2.1但是在执行命令时 ./nutch crawl urls / -dir download / -depth 3 -topN 5
我收到以下错误: -
InjectorJob:使用org.apache.gora.memory.store.MemStore类作为Gora存储类。 InjectorJob:过滤器拒绝的网址总数:0 InjectorJob:规范化和过滤后注入的URL总数:0 线程“main”中的异常java.lang.RuntimeException:作业失败:name = generate:null,jobid = job_local1165582916_0002 在org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 在org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 在org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) 在org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
答案 0 :(得分:3)
不推荐使用Command / bin / nutch抓取功能。你应该使用/ bin / crawl。