如何修复拼写检查异常所有检查程序都需要使用相同的分析器(Solr 5.3.1)

时间:2015-12-24 06:55:53

标签: solr lucene solr5

全部,我正在尝试在Solr 5.3.1中应用拼写检查。

目前Solr 5.3.1已包含SpellCheckComponent。看起来如下。

<searchComponent name="spellcheck" class="solr.SpellCheckComponent">
        <str name="queryAnalyzerFieldType">text_general</str>
        <lst name="spellchecker">
            <str name="name">default</str>
            <str name="field">text</str>
            <str name="classname">solr.DirectSolrSpellChecker</str>
            <str name="distanceMeasure">internal</str>
            <float name="accuracy">0.5</float>
            <int name="maxEdits">2</int>
            <int name="minPrefix">1</int>
            <int name="maxInspections">5</int>
            <int name="minQueryLength">4</int>
            <float name="maxQueryFrequency">0.01</float>
        </lst>
        <lst name="spellchecker">
            <str name="name">wordbreak</str>
            <str name="classname">solr.WordBreakSolrSpellChecker</str>
            <str name="field">name</str>
            <str name="combineWords">true</str>
            <str name="breakWords">true</str>
            <int name="maxChanges">10</int>
        </lst>
</searchComponent>

但是当我尝试使用此功能时。像这样。

http://10.2.21.38:7574/solr/gettingstarted_shard1_replica2/spell?q=%E7%94%B2&wt=json&indent=true

我得到了回应,但是说

All checkers need to use the same Analyzer

我也尝试从互联网上搜索一些解决方案。并找到了一些类似下面的解决方案。

Solr 4.0 How can I change the spellchecker analysers so they are all the same?

Solr spellcheck: cannot show result, always receiving same error

所以我尝试按照答案将这些字段更改为同一个字段。

<str name="field">text</str>
<str name="field">name</str>

到同一个字段

像这样。

...
<str name="field">EntryCNName</str>

....
<str name="field">EntryCNName</str>

在架构中定义。

<field name="EntryCNName" type="text_ik" indexed="true" stored="true"/>

字段类型定义是

<fieldType name="text_ik" class="solr.TextField">
    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

但不幸的是仍然遇到了同样的错误。有人可以帮忙弄清楚这个错误是什么意思吗?如何解决?

感谢。

更新过的

我取得了一些进展。

我发现<str name="field">xx</str>中定义的searchComponent应该在架构中定义。在requestHandler<str name="spellcheck.dictionary">xxx</str>的xxx应该来自spellchecker名称。 例如,在我的情况下,它们是defaultwordbreak

所以我改变了我的配置,如下所示。

Schema.xml的

    <field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
    <field name="_version_" type="long" indexed="true" stored="true"/>
    <field name="_root_" type="string" indexed="true" stored="false"/>
    <!--<field name="Name" type="string" indexed="true" stored="true"/>-->
    <field name="EntityID" type="string" indexed="false" stored="true"/>
    <field name="EntryCNName" type="text_ik" indexed="true" stored="true"/>
    <field name="EntryEnName" type="string" indexed="true" stored="true"/>
    <field name="EntryType" type="string" indexed="false" stored="true"/>
    <field name="_text_" type="text_general" indexed="true" stored="true" multiValued="true"/>
    <field name="spell" type="textSpell" indexed="true" stored="true" multiValued="true" />
    <!--<field name="content" type="text_general" indexed="true" stored="true" required="true" />-->
    <copyField source="*" dest="_text_"/>
    <copyField source="EntryEnName" dest="spell" />



<fieldType name="textSpell" class="solr.TextField" positionIncrementGap="100" omitNorms="true">
        <analyzer type="index">
            <tokenizer class="solr.StandardTokenizerFactory" />
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
            <filter class="solr.LowerCaseFilterFactory" />
            <filter class="solr.StandardFilterFactory" />
        </analyzer>
        <analyzer type="query">
            <tokenizer class="solr.StandardTokenizerFactory" />
            <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
            <filter class="solr.LowerCaseFilterFactory" />
            <filter class="solr.StandardFilterFactory" />
        </analyzer>
    </fieldType>

solrconfig.xml中

<lst name="spellchecker">
            <str name="name">default</str>
            <str name="classname">solr.IndexBasedSpellChecker</str>
            <str name="field">spell</str>
            <str name="spellcheckIndexDir">/path/to/my/spell/index</str>
            <str name="accuracy">0.7</str>
            <float name="thresholdTokenFrequency">.0001</float>

        </lst>

        <lst name="spellchecker">
            <str name="name">wordbreak</str>
            <str name="classname">solr.WordBreakSolrSpellChecker</str>
            <str name="field">spell</str>
            <str name="spellcheckIndexDir">/path/to/my/spell/index</str>
            <str name="combineWords">true</str>
            <str name="breakWords">true</str>
            <int name="maxChanges">10</int>
        </lst>



<requestHandler name="/spell" class="solr.SearchHandler" startup="lazy">
        <lst name="defaults">

            <str name="spellcheck.dictionary">default</str>
            <!--<str name="spellcheck.dictionary">wordbreak</str>-->
            <str name="spellcheck">on</str>
            <str name="spellcheck.extendedResults">true</str>
            <str name="spellcheck.count">10</str>
            <str name="spellcheck.alternativeTermCount">5</str>
            <str name="spellcheck.maxResultsForSuggest">5</str>
            <str name="spellcheck.collate">true</str>
            <str name="spellcheck.collateExtendedResults">true</str>
            <str name="spellcheck.maxCollationTries">10</str>
            <str name="spellcheck.maxCollations">5</str>
        </lst>
        <arr name="last-components">
            <str>spellcheck</str>
        </arr>
    </requestHandler>

现在错误消失了。但是当我把网址称为

http://10.2.21.38:7574/solr/gettingstarted_shard1_replica2/spell?q=lu&spellcheck=true&spellcheck.collate=true&spellcheck.build=true

我有空洞的建议。

<lst name="spellcheck">
<lst name="suggestions"/>
<bool name="correctlySpelled">false</bool>
<lst name="collations"/>
</lst>

实际上。我可以使用关键字lung搜索许多结果。当我尝试Lung时,为什么solr不会建议lu?我错过了什么。谢谢。

enter image description here

0 个答案:

没有答案