设置Nutch 1.3和Solr 3.1

时间:2011-10-24 19:56:37

标签: java solr nutch

我想让nutch 1.3和solr 3.1一起工作。

注意:我正在使用Windows并安装了Cygwin。

我安装了nutch并进行了基本爬网(从运行时/本地运行)

  

bin / nutch crawl urls -dir crawl -depth 3

这似乎是基于teh logs(crawl.log)工作的     ...     LinkDb:在2011-10-24 14:22:47完成,过去了:00:00:02     抓取完成:抓取

我已安装solr并使用localhost验证安装:8983 / solr / admin

我将nutch schema.xml文件复制到示例\ solr \ conf文件夹

当我运行以下命令时

  

bin / nutch solrindex http://localhost:8983/solr抓取/抓取抓取/ linkdb抓取/细分/ *

我收到以下错误(hadoop.log)

2011-10-24 15:39:26,467 WARN  mapred.LocalJobRunner - job_local_0001
org.apache.solr.common.SolrException: ERROR:unknown field 'content'

ERROR:unknown field 'content'
request: http://localhost:8983/solr/update?wt=javabin&version=2
...
org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48)
    at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)
2011-10-24 15:39:26,676 ERROR solr.SolrIndexer - java.io.IOException: Job failed!

我错过了什么?

1 个答案:

答案 0 :(得分:0)

似乎schema.xml中缺少内容字段定义。

e.g。

<field name="content" type="text" stored="false" indexed="true"/>

示例schema.xml @ http://svn.apache.org/viewvc/nutch/branches/branch-1.3/conf/schema.xml?view=markup似乎拥有它。您可能想要检查您复制的schema.xml。