应用错误收集

lucene查询大小 - 这个规模吗？查询'1 OR 2 OR 3 ..或N'

时间：2010-08-24 08:16:59

标签： lucene

假设我有一个lucene查询'id1或id2或id3 ... idN'。随着N的增加，这种规模有多好？

我所看到的情况与在购物车中对产品进行文本搜索的人类似，但他们的购物车可能有数百或数千种商品。用户想要在购物车中的所有产品上进行文本搜索。我可以针对所有可用产品进行文本查询，然后在购物车中使用产品ID的OR子句限制返回的商品吗？

5 个答案:

答案 0 :(得分：4)

默认情况下，布尔查询中的最大子句数为1024。您可以增加此限制。但是会有性能损失。我想，如果你改用过滤器会很有效。

答案 1 :(得分：2)

有些人已经回答，但存在实际限制。但是，如果您对该理论感兴趣，那么在执行一系列OR'd术语与具有大量可能结果的单个术语之间实际上没有区别。如果p是与您的查询匹配的发布数（术语/ doc对），并且您想要找到k个最佳匹配项，则查询将在O（p log k）中运行。请参阅Doug的论文Space Optimizations for Total Ranking。

如果你有q个查询项或者在你的索引总数中有t个术语，它实际上就像O（q log t + p log k），但是对于大多数应用程序来说，p log k将占主导地位。（这个公式来自这样一个事实：它需要记录时间来查找发布流，并且每个查询字词必须执行一次。）

答案 2 :(得分：1)

正如@Shashikant Kore所说，默认情况下限制为1024.

如果您有一个非常大的文本集合，您可能需要查看MoreLikeThis实现 - 它使用一些简洁的启发式方法从您拥有的内容生成代表性查询。

答案 3 :(得分：1)

在搜索时使用FilteredQuery。它的构造函数接受查询和过滤器。根据用户输入的内容创建查询（查看QueryParser）。从产品ID列表中创建过滤器（请查看TermsFilter）。

答案 4 :(得分：0)

查询中的布尔语句数量有限制。