我想让nutch 1.3和solr 3.1一起工作。
注意:我正在使用Windows并安装了Cygwin。
我安装了nutch并进行了基本爬网(从运行时/本地运行)
bin / nutch crawl urls -dir crawl -depth 3
这似乎是基于teh logs(crawl.log)工作的 ... LinkDb:在2011-10-24 14:22:47完成,过去了:00:00:02 抓取完成:抓取
我已安装solr并使用localhost验证安装:8983 / solr / admin
我将nutch schema.xml文件复制到示例\ solr \ conf文件夹
当我运行以下命令时
bin / nutch solrindex http://localhost:8983/solr抓取/抓取抓取/ linkdb抓取/细分/ *
我收到以下错误(hadoop.log)
2011-10-24 15:39:26,467 WARN mapred.LocalJobRunner - job_local_0001
org.apache.solr.common.SolrException: ERROR:unknown field 'content'
ERROR:unknown field 'content'
request: http://localhost:8983/solr/update?wt=javabin&version=2
...
org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed!
我错过了什么?
答案 0 :(得分:0)
似乎schema.xml中缺少内容字段定义。
e.g。
<field name="content" type="text" stored="false" indexed="true"/>
示例schema.xml @ http://svn.apache.org/viewvc/nutch/branches/branch-1.3/conf/schema.xml?view=markup似乎拥有它。您可能想要检查您复制的schema.xml。