我正在使用solr 6.2.1并且我想省略所有在solr上的特定字段中具有一些列入黑名单的单词(滥用单词)的文档。我在schema.xml中有以下文本字段配置 -
<!-- A text field that only splits on whitespace for exact matching of words -->
<fieldType name="text" class="solr.TextField" positionIncrementGap="100" multiValued="true">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
</fieldType>
任何人都可以帮我省略列入黑名单的单词并将其存储在Solr上。
伙计们,有可能吗?如果是,请帮我纠正配置。
答案 0 :(得分:0)
听起来像是要在索引管道前放置一个过滤器。在这种情况下,您通常采取的措施是:
在最简单的情况下,您只有一组单词,但如果您按组等定义,则会更灵活,更容易维护单词列表。