线程“main”中的异常java.io.IOException:作业失败!在Nutch 1.7

时间:2013-10-23 20:46:24

标签: apache search solr nutch

Solr和Nutch已经在本地设置(在不同的目录上),我希望抓取一个URL,将其编入索引,然后将该索引集成到Solr中。

在终端上运行此抓取:

                $ bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

在命令行上报告此错误:

                Exception in thread "main" java.io.IOException: Job failed!
                        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:81)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:65)
                        at org.apache.nutch.crawl.Crawl.run(Crawl.java:155)
                        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
                        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

那就是说,在我尝试集成时,我运行这个命令:

                $ bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

在命令行上报告此错误:

                2013-10-23 13:23:38.347 java[15444:1203] Unable to load realm info from SCDynamicStore
                Indexer: java.io.IOException: Job failed!
                        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
                        at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
                        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
                        at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)

我的环境和应用版本如下:

        
  • Nutch 1.7
  •     
  • Solr 4.5
  •     
  • MAC OSX(10.8.5)
  •     
  • java版“1.6.0_51”

建议将不胜感激。

2 个答案:

答案 0 :(得分:0)

Mrkreyes先生,你能找到你的问题的答案吗?

答案 1 :(得分:0)

我有同样的问题,我通过在命令

中包含核心来解决问题
  1. 找到您的核心名称

    1a上。转到http://localhost:8983/solr

    1b中。在左侧导航栏中,有一个标题为"核心选择器"的下拉菜单,单击菜单并查看Solr核心列表。

    1c上。记下核心名称。 (例如:collection1)

  2. 将核心名称放在命令

    2a上。 $ bin / nutch solrindex http://localhost:8983/solr/ collection1 crawl / crawldb -linkdb crawl / linkdb crawl / segments / *