如何使Lucene 5.5.0 StandardAnalyzer与Lucene 2.9.0 StandardAnalyzer一致?

时间:2018-02-06 07:21:03

标签: java lucene tokenize

StandardAnalyzer的默认行为在Lucene 5.x和2.x之间是不同的,例如A (std::initializer_list<int> l) { if (l.size() != 1) { /* do something */ } v = *l.begin(); } ,使用如下代码:

that's H&M

在lucene 2.x中,它被标记为:

  

[那,H&amp; M]

在lucene 5.x中,它被标记为:

  

[那个,h,m]

任何使lucene 5.x对齐lucene 2.x结果的方法?

1 个答案:

答案 0 :(得分:1)

回到Lucene 3,他们更改了StandardAnalyzer以实现Unicode文本分段,如UAX #29中所述。如果您希望使用2.X中旧的,更简单的分词算法,请改用ClassicAnalyzer