使用Gora集成Nutch-Hbase和Solr

时间:2013-10-18 07:04:30

标签: solr hbase nutch gora

我已经关注了nutch2教程并成功地将nutch与HBase集成在一起 我的问题是当我使用以下命令抓取网址时  ./nutch crawl urls/seed.txt abc -depth 50 -topN 50目录中的runtime/local/bin

发生错误:

Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1552667151_0002
        at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
        at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
        at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:152)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
请给我解决方案。任何解决方案将不胜感激。

1 个答案:

答案 0 :(得分:0)

正如大多数人可能会建议的那样,hadoop.log是寻找更好的错误描述的好地方。如果没有这些信息,我将冒险进行以下猜测:

  1. 你已经在windows box上设置了nutch
  2. 你在cygwin中运行hbase(尝试直接运行hbase) 无论如何,Windows命令提示符很可能会失败)
  3. 您可能遇到了hdfs文件系统错误(检查 hadoop.log会告诉你是否是这种情况。)
  4. 这是在apache问题中发布的解决方法jira: https://issues.apache.org/jira/browse/HADOOP-7682 另一种灵魂为它制作了一个补丁: https://github.com/congainc/patch-hadoop_7682-1.0.x-win 如果这确实是您遇到的问题,请使用上面补丁中提到的WinLocalFileSystem类,并通过在您的nutch-site.xml中添加以下内容来配置nutch以使用它:

    <property>
        <name>fs.file.impl</name>
        <value>org.apache.nutch.util.WinLocalFileSystem</value>
        <description>Enables patch for issue HADOOP-7682 on Windows
        </description>
    </property>