Lucene / Solr在大型数据集上的性能基准是否有任何链接/资源。数据集高于500GB~5TB
由于
答案 0 :(得分:17)
Lucene提交者Mike McCandless定期运行benchmarks以追踪表现改进和回归。它们是用维基百科出口制作的,可能比你想要的要小一些。
但性能并不太依赖于输入大小,而是取决于文档数量和唯一术语。如果您已经有一些类似于索引所需的数据,我建议您查看Mike's test tool,根据您的需要进行调整,并使用您自己的数据集和硬件运行它以尝试找出哪种类型的数据你可以期待的性能数据。