寻找TokenFilter

时间:2010-06-04 10:05:33

标签: indexing solr

我正在索引一些用西班牙语写在Solr中的文件,有时会出现类似¿Dé的字样.... 我想知道是否有一些TokenFilter在文本有重音时避免这个字符(á,é,í,ó......) 或信ñ。

由于

2 个答案:

答案 0 :(得分:0)

我将其添加到其他所有过滤器的位置:

  

fieldType name =“textTight”   类= “solr.TextField”
  positionIncrementGap =“100”>
        分析器>
          tokenizer class =“solr.WhitespaceTokenizerFactory”/>

    filter class="solr.SynonymFilterFactory"    
     

同义词= “synonyms.txt”   ignoreCase =“true”expand =“false”/>
          ....! - Filtro para quitar acentosyñññ - >
  charFilter   类= “solr.MappingCharFilterFactory”   映射= “映射-ISOLatin1Accent.txt”/>           ....
        器/分析器>
      /字段类型>

当然我在那之后重建我的索引。

(我添加了这个答案,因为在评论中并不清楚enaugh)

答案 1 :(得分:0)

如果您需要拉丁语言,则更容易使用

solr.ASCIIFoldingFilterFactory

喜欢在:

  <fieldType name="text" class="solr.TextField" omitNorms="false">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StandardFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.ASCIIFoldingFilterFactory"/>
    <filter class="solr.SnowballPorterFilterFactory" language="Romanian" />
  </analyzer>
</fieldType>

请参阅http://wiki.apache.org/solr/LanguageAnalysis以获取更多提前用法。