使用Lucene ShingleFilter提取Lucene中的bigrams频率

时间:2012-09-03 15:01:46

标签: lucene filtering n-gram

如果可以使用Lucene ShingleFilter将字符串标记为不同大小的带状疱疹或ngram,例如:

"please divide this sentence into shingles"

变为:

shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"

有没有人知道这是否可以与其他分析仪一起使用来返回发现的双字母组或三元组的频率,例如:

"please divide this please divide sentence into shingles"

“请分开”会返回2吗?

我应该补充一点,我的字符串是从数据库构建的,然后由Lucene在内存中编入索引并且不会保留。不要使用像Solr这样的其他产品。

1 个答案:

答案 0 :(得分:0)

我最终将我的snowballAnalyzer和standardAnalyzers作为参数传递给ShingleFilterWrappers并通过TermVectorMapper处理输出。