Apache Solr可以处理TeraByte大数据吗?

时间:2012-01-12 14:34:48

标签: solr lucene large-data-volumes large-data

我是apache solr用户大约一年。我使用solr进行简单的搜索工具,但现在我想使用solr和5TB的数据。根据我使用的过滤器,当solr索引它时,我假设5TB数据将是7TB。然后我将每小时将近50MB的数据添加到同一索引中。

1-使用具有5TB数据的单个solr服务器是否有任何问题。 (没有分片)

  • a- Solr服务器可以在可接受的时间内回答查询

  • b-在7TB索引上提交50MB数据的预计时间是多少。

  • c-索引大小是否有上限。

2-您提供的建议是什么

  • a-我应该使用多少个分片

  • b-我应该使用solr核心

  • c-您提供的提交频率是多少。 (1小时OK)

3-是否存在此类大数据的任何测试结果


没有可用的5TB数据,我只想估计结果是什么。

注意:您可以假设硬件资源不是问题。

1 个答案:

答案 0 :(得分:3)

如果您的尺寸是用于文本而不是二进制文件(其文本通常会少得多),那么我认为您不能假装在一台机器上执行此操作。

这听起来很像Logly,他们使用SolrCloud来处理这么多数据。

好的,如果所有文件都是丰富的文件,则索引的总文字大小会小得多(对我而言,它约为我的起始尺寸的7%)。无论如何,即使数量减少,我认为单个实例的数据仍然太多。