sabayasachi @ sabayasachi-Inspiron-3543:〜/ apache-nutch-2.2.1 / runtime / local $ ./bin/crawl urls / testCrawl false 1
InjectorJob:从2015-07-03 12:42:20开始
InjectorJob:注入urlDir:urls
InjectorJob:使用类org.apache.gora.sql.store.SqlStore作为Gora存储类。
InjectorJob:过滤器拒绝的网址总数:0
InjectorJob:标准化和过滤后注入的URL总数:1
注射器:2015-07-03 12:42:22完成,经过时间:00:00:02
7月3日星期五12:42:22 IST 2015:Iteration 1 of 1
生成batchId
生成新的获取列表
GeneratorJob:从2015-07-03 12:42:23开始
GeneratorJob:选择要获取的最佳得分网址。
GeneratorJob:开始
GeneratorJob:过滤:false
GeneratorJob:normalizing:false
GeneratorJob:topN:50000
GeneratorJob:java.lang.RuntimeException:job failed:name = [testCrawl] generate:1435907542-1867,jobid = job_local1420236121_0001
在org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
在org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
在org.apache.nutch.crawl.GeneratorJob.generate(GeneratorJob.java:223)
在org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:279)
在org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
在org.apache.nutch.crawl.GeneratorJob.main(GeneratorJob.java:287)
执行crawl命令时出现此错误。我使用mysql进行存储,而nutch版本是2.2.1