从nutch索引时如何在solr中添加一些额外的字段?

时间:2014-09-20 06:30:07

标签: solr cygwin web-crawler nutch

我正在使用nutch 1.9使用cygwin和solr 4.8.0。我可以使用下面的代码将已爬网的数据索引到solr中。

bin / crawl urls / crawlresult / http:// localhost:8983 / solr / 1

但是我想在索引时添加一些额外的字段,例如indexed_by,crawled_by,crawl_name等。
我需要帮助。

先谢谢。

1 个答案:

答案 0 :(得分:1)

如果附加字段的值没有改变,那么你可以使用Nutch的index-static插件。它允许您添加许多字段及其内容。首先需要在nutch-site.xml中启用它。然后添加字段列表,如下所示:

<property>
 <name>index.static</name>
 <value>indexed_by:solr,crawled_by:nutch-1.8,crawl_name:nutch</value>
 <description>
  Used by plugin index-static to adds fields with static data at indexing time. 
   You can specify a comma-separated list of fieldname:fieldcontent per Nutch job.
  Each fieldcontent can have multiple values separated by space, e.g.,
   field1:value1.1 value1.2 value1.3,field2:value2.1 value2.2 ...
   It can be useful when collections can't be created by URL patterns, 
  like in subcollection, but on a job-basis.
  </description>
</property>

如果这些字段的值不是静态的并且与索引文档无关,那么您需要编写一个IndexingFilter插件来执行此操作。看一下index-static插件,了解如何实现你的。