单个Solr服务器可以处理大数据吗?

时间:2018-01-02 06:16:41

标签: solr solrj

我使用Solr(版本7.1.0)进行搜索。对于少量数据,它工作正常。现在我想将 100 GB数据(4 000 000 000个文档)编入索引。每个文档只有3个字段**(两个字符串字段和一个整数字段)。我可以将所有文档保存到 5个独立的solr核心中。我在文档摄取过程中遇到了一些问题,所以我需要一些估计。

  1. 任何人都可以为此目的给我最低限度的硬件资源吗?
  2. 使用100 GB数据的单个solr服务器(具有5个核心数)是否有任何问题?
  3. solr服务器可以在可接受的时间内回答查询吗?
  4. 索引大小是否有上限?
  5. 我使用SolrJ来查询Solr。使用http post我通过.csv文件一次摄取50 000个文档。

1 个答案:

答案 0 :(得分:1)

  1. 最低要求取决于与文档数量完全不同的东西,通常更多是您希望使用数据的方式和速度的结果(即响应时间的要求是什么)以及您希望在数据中使用哪种功能。

  2. 没有

  3. 没有

  4. 是的,(至少在此之前)lucene id是签名的,因此单个索引仅限于2 ^ 31-1个文档。您可以通过在多个Solr实例之间分割索引来解决此限制,即使分片位于同一服务器上也是如此。这也为您提供了更多的并发性,并在同一台计算机上更好地使用多个cpu。

  5. 总结 - 给出的信息中没有任何内容应该是一个问题。