在索引分析器中,我使用WhitespaceTokenizerFactory
进行标记。一般来说,字符串被分成两个标记,结果是我的分析器的剩余步骤更适合第一个标记而不是两个标记。
有没有办法删除第二个令牌还用于剩余的分析器?
感谢您的任何见解。
答案 0 :(得分:1)
我不熟悉任何允许您删除任意令牌的过滤器(虽然它不应该太难写),但您可以使用PatternReplaceCharFilter来解决它
如果您有一个公共分隔符(即空格/空格),则可以在分隔符后删除任何内容,只留下第一个标记。如果您需要更高级的标记化,这将无法工作,但只要您将其表达为正则表达式,您就应该没问题。