我添加到solr索引:“美国”。当我搜索“美国”时,没有结果。
如何配置schema.xml以获取结果?
当前配置:
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
<filter class="solr.PorterStemFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
<filter class="solr.PorterStemFilterFactory"/>
</analyzer>
</fieldType>
答案 0 :(得分:4)
为什么你会有两个词根?
尝试从两种分析器类型中删除EnglishPorterFilterFactory
(已弃用),重建索引,然后尝试搜索 American 是否会产生 America 。
如果这不起作用,您可以尝试的另一件事是删除两个词干分析器,并添加SnowballPorterFilterFactory
代替language="English"
。
答案 1 :(得分:1)
你必须为analyzer
使用一个词干分析器,并且已经提及EnglishPorterFilterFactory
不推荐使用@Marko。所以你应该从分析仪中删除它。
我将SnowballPorterFilterFactory用于索引和查询分析器 -
<fieldType name="text_stem">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SnowballPorterFilterFactory"/>
<!-- other filters -->
</analyzer>
</fieldType>
fieldType定义非常自我解释,但以防万一:
Tokenizer solr.WhitespaceTokenizerFactory :此操作会将句子分解为单词,使用空格作为分隔符。
过滤器solr.SnowballPorterFilterFactory :此过滤器将对每个单词(令牌)应用词干算法。在上面的例子中,我选择了Snowball Porter词干算法。 Solr提供了一些流行的词干算法的实现。
您可以浏览其他几种词干算法,例如HunspellStemFilterFactory,KStemFilterFactory也是。