我正在尝试使用Lucene(5.5.0)进行一些字符串标记化(没有索引)。 我需要:
这些可能与Lucene有关吗?如果是这样的话?
到目前为止我做了什么:
提前致谢
答案 0 :(得分:1)
关于要求1:我不知道任何可以做到这一点的事情,开箱即用。 NumericPayloadTokenFilter
绝对不是您需要的。您可能需要创建自己的令牌过滤器来执行此操作。
关于要求2:用Lucene的说法,NGrams通常基于字符。你想要的是ShingleFilter,它结合了令牌。它会在停用词中创建带状疱疹,例如:tie _
和_ yellow
,其中_是通用填充令牌。