Lucene - 它是巨大指数的正确答案吗?

时间:2011-08-03 07:32:33

标签: lucene

Lucene是否能够为每个50K的500M文本文档编制索引?

对于单项搜索和10项搜索,可以预期此类指数会有什么表现?

我应该担心并直接转移到分布式索引环境吗?

萨尔

1 个答案:

答案 0 :(得分:7)

是的,根据以下文章,Lucene应该能够处理这个问题: http://www.lucidimagination.com/content/scaling-lucene-and-solr

这是一个引用:

  

根据众多因素,单台机器可轻松托管5到8,000万份文档的Lucene / Solr索引,而分布式解决方案可在数十亿份文档中提供亚秒级搜索响应时间。

本文深入探讨了扩展到多个服务器的问题。因此,如果需要,您可以从小规模开始扩展。

关于Lucene表现的一个很好的资源是Mike McCandless的博客,他积极参与Lucene的开发:http://blog.mikemccandless.com/ 他经常使用维基百科的内容(25 GB)作为Lucene的测试输入。

此外,Twitter的实时搜索现在可以用Lucene实现(参见http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html)。

但是,我想知道你提供的数字是否正确:5亿个文件x 50 KB = ~23 TB - 你真的有那么多数据吗?