Solr tokenizer过滤器子串

时间:2017-08-31 23:23:58

标签: solr autocomplete autosuggest

是否有一种索引字段的方法,以便包含单词的每个子字符串都被视为单独的标记?

例如,输入: "你好世界,你好吗?"

输出: "你好世界你好吗","你好世界怎么样","你好世界怎么","你好世界","你好"

这将与SuggestComponent结合使用,为用户提供自动提示。

1 个答案:

答案 0 :(得分:0)

原则上,像solr.ShingleFilterFactory这样的东西可以帮到你。它有两个参数:minShingleSizemaxShingleSize,所以它会为你生成很多的标记,其中一些标记可能对你没有用(它也意味着你在磁盘上浪费了很多空间)

您可能需要过滤掉不需要的令牌,或者可能要编写自己的过滤器。