我是apache solr用户大约一年。我使用solr进行简单的搜索工具,但现在我想使用solr和5TB的数据。根据我使用的过滤器,当solr索引它时,我假设5TB数据将是7TB。然后我将每小时将近50MB的数据添加到同一索引中。
1-使用具有5TB数据的单个solr服务器是否有任何问题。 (没有分片)
a- Solr服务器可以在可接受的时间内回答查询
b-在7TB索引上提交50MB数据的预计时间是多少。
c-索引大小是否有上限。
2-您提供的建议是什么
a-我应该使用多少个分片
b-我应该使用solr核心
c-您提供的提交频率是多少。 (1小时OK)
3-是否存在此类大数据的任何测试结果
没有可用的5TB数据,我只想估计结果是什么。
注意:您可以假设硬件资源不是问题。
答案 0 :(得分:3)
如果您的尺寸是用于文本而不是二进制文件(其文本通常会少得多),那么我认为您不能假装在一台机器上执行此操作。
这听起来很像Logly,他们使用SolrCloud来处理这么多数据。
好的,如果所有文件都是丰富的文件,则索引的总文字大小会小得多(对我而言,它约为我的起始尺寸的7%)。无论如何,即使数量减少,我认为单个实例的数据仍然太多。