LUCENE标准分析仪连字号考虑

时间:2012-10-11 05:42:52

标签: lucene

使用lucene标准分析器索引我的文档时,我得到了一个问题。

例如: 我的文件中有一个单词“plag-iarism”...这里的分析器将其标记为“plag”和“iarism”。但我想要“抄袭”。我需要做些什么才能得到一个完整的词?

1 个答案:

答案 0 :(得分:0)

StandardAnalyzer将tokanization委托给StandardTokenizer。 您可以创建自己的tokanizer以满足您的确切需求(您可以将其基于StandardTokenizer)。

或者,如果您愿意,可以使用相关的正则表达式对String.replace()执行脏操作,只需运行分析器即可。是啊。难看。