我正在尝试使用“Apache Nutch 1.4”索引网站,当我运行以下命令时,会出现以下错误“java.io.IOException:Job failed”
bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
我安装了“Tomca6”和“Apache Solr 3.5.0”与Nutch合作,但遗憾的是无法正常工作
模拟
root@debian:/usr/share/nutch/runtime/local$ bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
SolrIndexer: starting at 2012-03-28 18:45:25
Adding 48 documents
java.io.IOException: Job failed!
root@debian:/usr/share/nutch/runtime/local$
有人能帮助我吗?
答案 0 :(得分:0)
如果将nutch结果字段映射到Solr字段不正确或不完整,则通常会发生此错误。这导致Solr服务器拒绝“更新”操作。不幸的是,在调用链的某个点上,这个错误被转换成“IO错误”,这有点误导。我的建议是访问Solr服务器的Web控制台(可以使用与链接的提交相同的URL访问,例如在这种情况下http://some.solr.server:8983/solr/)并转到日志选项卡。有关映射的错误将显示在那里!
答案 1 :(得分:-1)
看起来Solr配置不正确。 (请确保输入linkdb,crawldb和segment存在于您传递命令行的位置)。
阅读