Question

StandardAnalyzer的默认行为在Lucene 5.x和2.x之间是不同的，例如A (std::initializer_list<int> l) { if (l.size() != 1) { /* do something */ } v = *l.begin(); }，使用如下代码：

that's H&M

在lucene 2.x中，它被标记为：

[那，H＆amp; M]

在lucene 5.x中，它被标记为：

[那个，h，m]

任何使lucene 5.x对齐lucene 2.x结果的方法？

Answer 1

回到Lucene 3，他们更改了StandardAnalyzer以实现Unicode文本分段，如UAX #29中所述。如果您希望使用2.X中旧的，更简单的分词算法，请改用ClassicAnalyzer。