我正在索引一些用西班牙语写在Solr中的文件,有时会出现类似¿Dé的字样.... 我想知道是否有一些TokenFilter在文本有重音时避免这个字符(á,é,í,ó......) 或信ñ。
由于
答案 0 :(得分:0)
我将其添加到其他所有过滤器的位置:
fieldType name =“textTight” 类= “solr.TextField”
positionIncrementGap =“100”>
分析器>
tokenizer class =“solr.WhitespaceTokenizerFactory”/>filter class="solr.SynonymFilterFactory"
同义词= “synonyms.txt” ignoreCase =“true”expand =“false”/>
....! - Filtro para quitar acentosyñññ - >
charFilter 类= “solr.MappingCharFilterFactory” 映射= “映射-ISOLatin1Accent.txt”/> ....
器/分析器>
/字段类型>
当然我在那之后重建我的索引。
(我添加了这个答案,因为在评论中并不清楚enaugh)
答案 1 :(得分:0)
如果您需要拉丁语言,则更容易使用
solr.ASCIIFoldingFilterFactory
喜欢在:
<fieldType name="text" class="solr.TextField" omitNorms="false">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StandardFilterFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.ASCIIFoldingFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="Romanian" />
</analyzer>
</fieldType>
请参阅http://wiki.apache.org/solr/LanguageAnalysis以获取更多提前用法。