StandardAnalyzer的默认行为在Lucene 5.x和2.x之间是不同的,例如A (std::initializer_list<int> l) {
if (l.size() != 1) {
/* do something */
}
v = *l.begin();
}
,使用如下代码:
that's H&M
在lucene 2.x中,它被标记为:
[那,H&amp; M]
在lucene 5.x中,它被标记为:
[那个,h,m]
任何使lucene 5.x对齐lucene 2.x结果的方法?
答案 0 :(得分:1)
回到Lucene 3,他们更改了StandardAnalyzer
以实现Unicode文本分段,如UAX #29中所述。如果您希望使用2.X中旧的,更简单的分词算法,请改用ClassicAnalyzer
。