应用错误收集

时间：2012-04-10 11:41:21

标签： solr lucene indexing

我正在尝试索引维基百科的转储。为了提供文章的摘要（或者，也许，将来启用突出显示功能），我想在没有WikiMarkup的情况下存储他们的文本。第一次尝试，只留下字母数字符号就足够了。所以问题是可以存储字段级别的字段，而不是原始字段？

答案 0 :(得分：2)

没有办法开箱即用。如果您希望Solr执行此操作，您可以创建自己的UpdateHandler，但这可能有点棘手。最简单的方法是在将文档发送给Solr之前对文档进行预处理。

答案 1 :(得分：1)

默认情况下，Solr存储原始字段值，然后由fieldType的索引时间分析器应用过滤器。因此，默认情况下，它不存储过滤的值。但是，您有两种方法可以获得所需的结果。

您可以在查询时将相同的过滤器应用于字段，以便在索引时应用以删除Wiki标记。有关详细信息，请参阅Analyzers, Tokenizers and Token Filters on the Solr Wiki。
您可以在将数据加载到Solr之前在单独的进程中将过滤器应用于数据，然后Solr将存储过滤后的值，因为您将在已过滤状态下传递它们。