Apache Solr - 如何在搜索短语时防止分裂

时间:2013-07-23 23:57:31

标签: java solr lucene

我有以下字段类型:

<fieldType name="textfield" class="solr.TextField" positionIncrementGap="100"> 
  <analyzer type="index">
    <charFilter class="solr.HTMLStripCharFilterFactory"/>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.TrimFilterFactory"/>
    <filter class="solr.LengthFilterFactory" min="3" max="30"/>
    <!-- in this example, we will only use synonyms at query time
    <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
    -->
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1"
            catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
    <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.LengthFilterFactory" min="3" max="30"/>
    <!--<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>-->
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.TrimFilterFactory" />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1"
            catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
  </analyzer>
</fieldType>

我遇到的问题是,当使用引号搜索短语时,结果与没有引号的结果相同,所以如果我搜索let,那么说:
ABC。 8
这将显示相​​同的结果 “abc.8” 那个时期也可能会分裂文本吗?

换句话说,我只想在引用查询文本时搜索短语。 THX。

1 个答案:

答案 0 :(得分:0)

您已将LengthFilterFactory合并到您的分析器中,最小长度为3.令牌8的长度为1,因此将从索引和该过滤器的查询中删除。您的查询语法是正确的,如果两个术语都被编入索引,则会按照您的指定执行短语查询。