Question

我正在索引一些用西班牙语写在Solr中的文件，有时会出现类似Â¿Dé的字样.... 我想知道是否有一些TokenFilter在文本有重音时避免这个字符（á，é，í，ó......）或信ñ。

由于

Answer 1

我将其添加到其他所有过滤器的位置：

fieldType name =“textTight”   类= “solr.TextField”
  positionIncrementGap =“100”＆gt;
        分析器＆GT;
          tokenizer class =“solr.WhitespaceTokenizerFactory”/＆gt;
    filter class="solr.SynonymFilterFactory"    
同义词= “synonyms.txt”   ignoreCase =“true”expand =“false”/＆gt;
          ....！ - Filtro para quitar acentosyñññ - ＆gt;
  charFilter   类= “solr.MappingCharFilterFactory”   映射= “映射-ISOLatin1Accent.txt”/＆GT;           ....
        器/分析器＆GT;
      /字段类型＆GT;

当然我在那之后重建我的索引。

（我添加了这个答案，因为在评论中并不清楚enaugh）

Answer 2

如果您需要拉丁语言，则更容易使用

solr.ASCIIFoldingFilterFactory

喜欢在：

  <fieldType name="text" class="solr.TextField" omitNorms="false">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StandardFilterFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.ASCIIFoldingFilterFactory"/>
    <filter class="solr.SnowballPorterFilterFactory" language="Romanian" />
  </analyzer>
</fieldType>

请参阅http://wiki.apache.org/solr/LanguageAnalysis以获取更多提前用法。

寻找TokenFilter

2 个答案: