使用lucene标准分析器索引我的文档时,我得到了一个问题。
例如: 我的文件中有一个单词“plag-iarism”...这里的分析器将其标记为“plag”和“iarism”。但我想要“抄袭”。我需要做些什么才能得到一个完整的词?
答案 0 :(得分:0)
StandardAnalyzer将tokanization委托给StandardTokenizer。 您可以创建自己的tokanizer以满足您的确切需求(您可以将其基于StandardTokenizer)。
或者,如果您愿意,可以使用相关的正则表达式对String.replace()执行脏操作,只需运行分析器即可。是啊。难看。