Lucene是否能够为每个50K的500M文本文档编制索引?
对于单项搜索和10项搜索,可以预期此类指数会有什么表现?
我应该担心并直接转移到分布式索引环境吗?
萨尔
答案 0 :(得分:7)
是的,根据以下文章,Lucene应该能够处理这个问题: http://www.lucidimagination.com/content/scaling-lucene-and-solr
这是一个引用:
根据众多因素,单台机器可轻松托管5到8,000万份文档的Lucene / Solr索引,而分布式解决方案可在数十亿份文档中提供亚秒级搜索响应时间。
本文深入探讨了扩展到多个服务器的问题。因此,如果需要,您可以从小规模开始扩展。
关于Lucene表现的一个很好的资源是Mike McCandless的博客,他积极参与Lucene的开发:http://blog.mikemccandless.com/ 他经常使用维基百科的内容(25 GB)作为Lucene的测试输入。
此外,Twitter的实时搜索现在可以用Lucene实现(参见http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html)。
但是,我想知道你提供的数字是否正确:5亿个文件x 50 KB = ~23 TB - 你真的有那么多数据吗?