应用错误收集

Lucene以及如何衡量索引碎片

时间：2012-08-29 10:29:18

标签： performance lucene

我们正在使用 Lucene 2.9.2 （计划升级到3.x）并且已知的事实是搜索查询会随着时间的推移而变慢。通常我们会执行完整的重新索引。我已经阅读了问题https://stackoverflow.com/a/668453/356815及其答案并立即回答：我们不使用optimize（），因为在运行时不再接受性能。

碎片吗

我想知道以下内容：衡量现有索引的碎片的最佳做法是什么？ Luke可以帮助我吗？

听到您对此分析主题的看法会非常有趣。

关于我们的指数的更多信息：

我们索引了400'000个文件

我们大量使用每个文档的属性

对于每个请求，我们都会创建一个新的搜索器对象（因为我们希望更改立即显示在搜索结果中）

查询效果介于30毫秒（重复相同搜索）和10秒（复杂）
之间
索引包含44个文件（15个.del文件，24个cfs文件），大小为1GB

1 个答案:

答案 0 :(得分：3)

较旧版本的Lucene没有有效处理大量细分。这就是为什么有些人建议优化（将所有段合并在一起）以提高搜索性能。

最近版本的Lucene不太适用。事实上，优化已被重命名为声音不那么神奇（你现在需要调用forceMerge（1））并且总是合并段甚至被认为是有害的（看看Lucene开发人员Simon Willnauer的这个nice article）。

对于每个请求，我们都会创建一个新的搜索器对象

打开读者非常昂贵。您应该使用SearcherManager，这将有助于您在必要时重新打开（增量打开）索引。

相关问题

衡量（Android）堆碎片？

Lucene以及如何衡量索引碎片

索引组织表碎片

ElasticSearch - 更新现有索引的相似性度量

索引碎片SQL Server

如何测量Hotspot的Metaspace中的碎片？

DocumentDB索引性能/碎片

高指数碎片

Solr：如何索引日期和时间

索引中的碎片如何发生？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？