Solr的。存储不是原始字段,而是过滤掉一个

时间:2012-04-10 11:41:21

标签: solr lucene indexing

我正在尝试索引维基百科的转储。为了提供文章的摘要(或者,也许,将来启用突出显示功能),我想在没有WikiMarkup的情况下存储他们的文本。第一次尝试,只留下字母数字符号就足够了。所以问题是可以存储字段级别的字段,而不是原始字段?

2 个答案:

答案 0 :(得分:2)

没有办法开箱即用。如果您希望Solr执行此操作,您可以创建自己的UpdateHandler,但这可能有点棘手。最简单的方法是在将文档发送给Solr之前对文档进行预处理。

答案 1 :(得分:1)

默认情况下,Solr存储原始字段值,然后由fieldType的索引时间分析器应用过滤器。因此,默认情况下,它不存储过滤的值。但是,您有两种方法可以获得所需的结果。

  1. 您可以在查询时将相同的过滤器应用于字段,以便在索引时应用以删除Wiki标记。有关详细信息,请参阅Analyzers, Tokenizers and Token Filters on the Solr Wiki
  2. 您可以在将数据加载到Solr之前在单独的进程中将过滤器应用于数据,然后Solr将存储过滤后的值,因为您将在已过滤状态下传递它们。