在Solr中自定义KStem过滤器

时间:2012-06-21 17:48:57

标签: solr lucene stemming porter-stemmer

我正在尝试评估从Porter到KStem的Solr中的切换堵塞过滤器。我看到了通过direct_conflations.txt文件和其他文件配置KStem的能力的参考,但我似乎无法找到有关如何格式化该文件或如何告诉KStem加载此配置文件的文档。

以下是schema.xml中加载KStem

的示例solr配置
<analyzer type="query">
  <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StandardFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false"/>
    <filter class="solr.KStemFilterFactory"/>
</analyzer>

使用Porter,您可以像这样配置受保护的单词:

<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>

我想知道是否有类似的方法来配置KStem,是否有人知道或者有人知道这些文件记录在哪里?

1 个答案:

答案 0 :(得分:1)

你最好的朋友正在查看solr源代码。我快速看了一下,发现与EnglishPorterFilterFactory不同,KStemFilterFactory不会查找受保护的令牌列表。 HTH。