如何在Solr中配置词干?

时间:2011-03-12 22:28:00

标签: solr stemming

我添加到solr索引:“美国”。当我搜索“美国”时,没有结果。

如何配置schema.xml以获取结果?

当前配置:

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
            <analyzer type="index">
                <tokenizer class="solr.WhitespaceTokenizerFactory" />
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" />
                <filter class="solr.LowerCaseFilterFactory" />
                <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
                <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
                <filter class="solr.PorterStemFilterFactory"/>
            </analyzer>
            <analyzer type="query">
                <tokenizer class="solr.WhitespaceTokenizerFactory" />
                <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" />
                <filter class="solr.LowerCaseFilterFactory" />
                <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
                <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
                <filter class="solr.PorterStemFilterFactory"/>
            </analyzer>
        </fieldType>

2 个答案:

答案 0 :(得分:4)

为什么你会有两个词根? 尝试从两种分析器类型中删除EnglishPorterFilterFactory(已弃用),重建索引,然后尝试搜索 American 是否会产生 America

如果这不起作用,您可以尝试的另一件事是删除两个词干分析器,并添加SnowballPorterFilterFactory代替language="English"

答案 1 :(得分:1)

你必须为analyzer使用一个词干分析器,并且已经提及EnglishPorterFilterFactory不推荐使用@Marko。所以你应该从分析仪中删除它。

我将SnowballPorterFilterFactory用于索引和查询分析器 -

<fieldType name="text_stem">
    <analyzer> 
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SnowballPorterFilterFactory"/>
        <!-- other filters -->
    </analyzer>
</fieldType>

fieldType定义非常自我解释,但以防万一:

  • Tokenizer solr.WhitespaceTokenizerFactory :此操作会将句子分解为单词,使用空格作为分隔符。

  • 过滤器solr.SnowballPorterFilterFactory :此过滤器将对每个单词(令牌)应用词干算法。在上面的例子中,我选择了Snowball Porter词干算法。 Solr提供了一些流行的词干算法的实现。

您可以浏览其他几种词干算法,例如HunspellStemFilterFactoryKStemFilterFactory也是。