我正在尝试使用nutch爬网,我按照nutch官方网站上的文档步骤(成功运行爬网,将scheme-solr4.xml复制到solr目录中)。但是当我运行
时bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
我收到以下错误:
Indexer: starting at 2013-08-25 09:17:35
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
SOLRIndexWriter
solr.server.url : URL of the SOLR instance (mandatory)
solr.commit.size : buffer size when sending to SOLR (default 1000)
solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
solr.auth : use authentication (default false)
solr.auth.username : use authentication (default false)
solr.auth : username for authentication
solr.auth.password : password for authentication
Indexer: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)
我必须提到solr正在运行,但我无法浏览http://localhost:8983/solr/admin
(它会将我重定向到http://localhost:8983/solr/#
)。
另一方面,当我停止solr时,我得到同样的错误!有没有人知道我的设置有什么问题?
P.S。我抓取的网址是:http://localhost/NORC
答案 0 :(得分:0)
答案 1 :(得分:0)
当我在nutch中遇到同样的问题时,solr的日志会出现错误消息“unknown field host”。 在solr中修改schema.xml之后,nutch的错误就消失了。
答案 2 :(得分:0)
您缺少命令中核心的名称。
e.g:
./bin/crawl -i -D solr.server.url=http://localhost:8983/solr/#/your_corname urls/ crawl 1