Apache Solr Tokenizers

时间:2016-08-08 10:27:56

标签: apache solr stringtokenizer

我使用Apache Solr作为我的语义搜索引擎。用户可以在其中键入任何内容,我必须使用单词使用相关结果进行检索。

我想在令牌中拆分字符串。

Example: "actorsfrommumbai" -> "actors from mumbai"

如何在solr中实现此功能?

2 个答案:

答案 0 :(得分:0)

看起来你正在寻找解压缩 - > https://wiki.apache.org/solr/LanguageAnalysis#Decompounding 这使您可以搜索复合词的一部分。

答案 1 :(得分:0)

solr有可能根据提供的字典配置分析器进行分解。你必须配置像这样的分析器

 <analyzer>
 <tokenizer class="solr.StandardTokenizerFactory"/>
 <filter class="solr.DictionaryCompoundWordTokenFilterFactory"
 dictionary="abc.txt"/>
 </analyzer>

abc.txt是字典。

请注意,分析器同时应用索引和查询时间。