我试图计划SolrCloud实现,并且根据测试的当前索引大小,我估计的10亿个文档的物理索引大小大约是20太字节。到目前为止,我一直无法找到能够支持此大小单个卷的云主机。我希望有人可以就管理这么大的指数提供一些指导。 20TB指数荒谬吗?关于SolrCloud架构,我有什么遗漏的东西吗?我所看到的大多数指导原则都表明,无论碎片计数如何,都应该在每台机器上复制整个索引以保证冗余,因此每个节点都需要一个20TB的存储设备。如果那里的任何人能够发光,我将非常感激。
答案 0 :(得分:3)
不确定您在哪里阅读此类指南?
在每个分片中只保留一部分索引是完全正常的(每个分片都有一个主副本和一些副本)。
您需要研究如何使用基于哈希的内置路由分类索引或提供自己的索引。
编辑:所以如果我理解正确,你假设集群中的每个节点都必须有每个分片的主副本或副本,对吗?如果是这样,答案是否定的。为了提供弹性,您需要在群集中的某个位置拥有每个分片的主/副本,但是只要S具有主副本和副本,您就可以拥有不包含分片S的任何节点N(至少)在其他节点。