Solr 6索引内容的间隔

时间:2017-07-10 06:41:52

标签: solr solr4 solr6

我正在使用solr 6,我的要求是找到在其中重复连续5个单词(按空格分隔)的文档。

为了达到这个目的,我计划将内容索引为5个字的inverval,例如,如果我的内容是"快速的棕色狐狸跳过懒狗",它应该索引为" ;快速的棕色狐狸跳起来,#34;快速的棕色狐狸跳过","棕色的狐狸跳过"。

为了配置tokenizer,我提到了这个wiki,但没有找到任何可以解决这个问题的提供的tokenizer。所以我正在寻找一种方法来创建新的tokenizer类或任何其他方式,使用提供的tokenizer可以解决我的问题。如果有人能帮助我解决这个问题,那将是可观的。

1 个答案:

答案 0 :(得分:1)

您正是出于此目的使用Shingle filter。它是一个过滤器,而不是一个标记器,但可以满足您的需求。