应用错误收集

LUCENE标准分析仪连字号考虑

时间：2012-10-11 05:42:52

标签： lucene

使用lucene标准分析器索引我的文档时，我得到了一个问题。

例如：我的文件中有一个单词“plag-iarism”...这里的分析器将其标记为“plag”和“iarism”。但我想要“抄袭”。我需要做些什么才能得到一个完整的词？

1 个答案:

答案 0 :(得分：0)

StandardAnalyzer将tokanization委托给StandardTokenizer。您可以创建自己的tokanizer以满足您的确切需求（您可以将其基于StandardTokenizer）。

或者，如果您愿意，可以使用相关的正则表达式对String.replace（）执行脏操作，只需运行分析器即可。是啊。难看。