我想在SOLR查询中启用“startsWith”搜索每个术语,但也能够执行短语搜索(在引号中给出)。 对于前缀搜索首先我添加了后缀“*”。此解决方案允许前缀搜索和短语搜索,但我不喜欢这种解决方案,因为它是通配符搜索,通配符搜索不会分析这些条款。
所以我只在索引时启用了EdgeNgramFilterFactory。前缀搜索工作正常,但确切的短语搜索不再起作用。
即使启用了EdgeNgram,有没有人知道如何启用短语搜索?
谢谢!
这是schema.xml
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="back" />
<filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
<filter class="solr.PorterStemFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
<filter class="solr.PorterStemFilterFactory"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>
另外我注意到在使用WordDelimiterFilterFactory时突出显示不再有效。
答案 0 :(得分:5)
短语搜索不起作用,因为EdgeNGram产生了额外的术语并增加了单词每个块的术语位置(令人惊讶)。短语预计是精确的,意味着两个连续项之间的距离(slops)是1.但是对于块,索引文本看起来不同。想象一下,您已使用<filter class="solr.EdgeNGramFilterFactory" minGramSize="2" side="front"/>
索引了文本“Hello World”。然后索引文本看起来就像“他好,你好,我好世界”。你会发现短语“hel hell”而不是“hello world”。
作为一个选项,您可以通过增加查询解析器(dismax)的 qs 参数来允许单词之间保持一定距离。
但'不精确的短语'搜索可能是不可接受的,因为你会发现其他意想不到的短语,比如'hel hell'。
更好的选择是use a separate field for ngrams。在这种情况下,文本将在两个字段中编入索引,而ngrams不会破坏原始文本。
答案 1 :(得分:2)
您可以使用两个字段 - 一个用于前缀和后缀搜索,另一个用于完全匹配。
<field indexed="true" name="myfield_edgy" type="edgy"/>
<field indexed="true" name="myfield_exactmatch" type="exactmatch"/>
<copyField source="myfield_exactmatch" dest="myfield_edgy"/>
现在你可以搜索两个字段甚至使用不同的提升,即在myfield_exactmatch中对匹配进行排名更高。
答案 2 :(得分:0)
另一种选择是升级到3.6.0,因为现在通配符不会阻止查询被分析