是否有一种索引字段的方法,以便包含单词的每个子字符串都被视为单独的标记?
例如,输入: "你好世界,你好吗?"
输出: "你好世界你好吗","你好世界怎么样","你好世界怎么","你好世界","你好"
这将与SuggestComponent结合使用,为用户提供自动提示。
答案 0 :(得分:0)
原则上,像solr.ShingleFilterFactory
这样的东西可以帮到你。它有两个参数:minShingleSize
和maxShingleSize
,所以它会为你生成很多的标记,其中一些标记可能对你没有用(它也意味着你在磁盘上浪费了很多空间)
您可能需要过滤掉不需要的令牌,或者可能要编写自己的过滤器。