我目前正在drupal网站上使用SOLR 5.2。我安装了SOLR并且运行良好。但是,当我有一些内容时,例如标题中包含标点符号如“/”的文章。
例如16/11。 (我的许多文章都以日/月开头)。 SOLR无法索引这些项目。相反,它剥去了标点符号。
我遵循了以下文章:http://www.prowaveconsulting.com/indexing-special-terms-using-solr/
但是没有太多运气让这个工作。我需要SOLR来索引标点符号。主要是/!;,'“
答案 0 :(得分:1)
使用 solr.WhiteSpaceTokenizer 代替 StandardTokenizerFactory 。 它只会在空格上标记“例如16/11” - > tokens = [“for”,“example”,“16/11”]
您可以将 solr.PatternTokenizerFactory 与模式一起使用。它以指定的正则表达式模式中断文本。
<fieldType name="semicolonDelimited" class="solr.TextField">
<analyzer>
<tokenizer class="solr.PatternTokenizerFactory" pattern=";\s*" />
</analyzer>
</fieldType>