我有这个词汇领域:
<fieldtype name="textes" class="solr.TextField">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords-es.txt" enablePositionIncrements="true"/>
<filter class="solr.SnowballPorterFilterFactory" language="Spanish" protected="protwords-es.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.SnowballPorterFilterFactory" language="Spanish" protected="protwords-es.txt"/>
</analyzer>
</fieldtype>
搜索查询alquileres
(租金)的预期结果将是alquiler
(租金)的匹配。但是,当我转到Solr管理站点中的“字段分析”,并检查索引值alquiler
和查询值alquileres
时,会发生以下情况:
alquiler
编制索引时,会将其纳入alquil
。alquileres
时,它会被导入alquiler
。因此,搜索复数形式的单词(alquileres
)的简单情况与其单数形式(alquiler
)不匹配。
索引和查询是否应该同时包含在同一个词干中(alquiler
或alquil
)?这是算法的限制还是我的误解/错误配置?
答案 0 :(得分:2)
此链接适用于 alquileres
答案 1 :(得分:1)
雪球堵塞非常有限......使用字典(Hunspell stemmer)可以获得更好的结果:http://wiki.apache.org/solr/Hunspell
答案 2 :(得分:0)
我使用来自openoffice的hunspell,它做得非常出色。
我的例子:
URL-Elastic/_analyze?analyzer=es_AR&text=alquileres
返回:
{
tokens:
[
{
token: "alquiler",
start_offset: 0,
end_offset: 10,
type: "<ALPHANUM>",
position: 1
}
]
}