nutch 1.10作业失败,错误请求错误索引到solr 5.3.1

时间:2015-10-30 20:37:47

标签: hadoop solr nutch

我已经在一个测试环境中放置了一个爬虫,该环境运行得很好,有两个小站点,包括成功索引到solr。所以,nutch和solr之间的整合似乎很好。

我所做的唯一更改是使用与其他网站完全相同的语法向seed.txt和regex-urlfilters.txt中的另一行添加另一个网站。

现在,当我运行爬虫时,它运行良好一段时间,然后崩溃,“失败!”#39;错误和一些有用的信息。

这是控制台的输出。值得注意的是,这是在爬网中创建的第3个段,因此它在错误发生之前已经成功索引了2个段。新网站中是否会出现导致损坏的内容?

Vector<Integer> returnVec = new Vector(Arrays.asList(YOUR_ARRAY));

这是来自hadoop.log的相关数据

Indexing 20151030150906 to index
/opt/apache-nutch-1.10/bin/nutch index -Dsolr.server.url=http://localhost:8983/solr/TestCrawlCore TestCrawl//crawldb -linkdb TestCrawl//linkdb TestCrawl//segments/20151030150906
Indexer: starting at 2015-10-30 15:14:00
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
SOLRIndexWriter
    solr.server.url : URL of the SOLR instance (mandatory)
    solr.commit.size : buffer size when sending to SOLR (default 1000)
    solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
    solr.auth : use authentication (default false)
    solr.auth.username : username for authentication
    solr.auth.password : password for authentication


Indexer: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:113)
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:177)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:187)

Error running:
  /opt/apache-nutch-1.10/bin/nutch index -Dsolr.server.url=http://localhost:8983/solr/TestCrawlCore TestCrawl//crawldb -linkdb TestCrawl//linkdb TestCrawl//segments/20151030150906
Failed with exit value 255.

我只是想出这些东西,所以我不知道解决这个问题的下一步。任何帮助,将不胜感激。如果有特定的内容可以提供帮助,我很乐意提供更多信息。

1 个答案:

答案 0 :(得分:0)

这证明了nutch和solr模式之间的不匹配。

感谢TMBT(参见上面的评论)我在Solr日志中发现了另一个错误,声称“unidentified field:”anchor“。

我所要做的就是将锚字段声明从nutch模式复制到Solr模式并重新启动solr服务。现在运行正常。