Nutch 2.3不生成/抓取

时间:2016-02-10 04:43:12

标签: java apache web-crawler nutch

我是Nutch的新手。我已经安装了Nutch 2.3并且直到注入种子URL($ NUTCH_ROOT / runtime / local / bin / nutch注入文件:/// path / to / seed /)才能正常工作。

当我执行下一个命令时: $ NUTCH_ROOT / runtime / local / bin / nutch generate -t​​opN 10
我收到这个错误:

GeneratorJob: starting at 2016-02-09 23:31:01
GeneratorJob: Selecting best-scoring urls due for fetch.
GeneratorJob: starting
GeneratorJob: filtering: true
GeneratorJob: normalizing: true
GeneratorJob: topN: 10
GeneratorJob: java.lang.RuntimeException: job failed: name=apache-nutch-2.3.1.jar, jobid=job_local1073670973_0001
    at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:120)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:227)
    at org.apache.nutch.crawl.GeneratorJob.generate(GeneratorJob.java:256)
    at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:322)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.crawl.GeneratorJob.main(GeneratorJob.java:330)

有关从何处出发或寻找什么的建议?

非常感谢有关此问题的任何帮助!

2 个答案:

答案 0 :(得分:0)

您的日志表明您运行的是nutch 2.3.1版本,并且您说您有2.3版本。

2.3.1版本增加了许多与其他技术相关的新兼容性(参见release notes)。

也许您使用2个不兼容版本。

答案 1 :(得分:0)

您可以检查磁盘上的数据库空间吗? 因为在nutch 2.X中你使用了一个额外的数据库(Hbase,Cassandra ......),也许你没有足够的空间存放数据,临时文件或其他...