ElasticSearch + Cassandra的实际限制

时间:2011-06-15 14:31:36

标签: cassandra elasticsearch limits

我打算使用ElasticSearch索引我的Cassandra数据库。我想知道是否有人看过ElasticSearch的实际限制。在PB级范围内,事情会变慢吗?另外,有没有人使用ElasticSearch索引Cassandra有什么问题?

4 个答案:

答案 0 :(得分:25)

请参阅2011年的this thread,其中提到的ElasticSearch配置包含每个200GB的1700个分片,这些分片将在1/3 PB范围内。我希望ElasticSearch的体系结构支持几乎无限的水平可伸缩性,因为每个分片索引与所有其他分片分开工作。

实际限制(适用于任何其他解决方案)包括首先实际加载大量数据所需的时间。管理该大小的Cassandra集群(或任何其他分布式数据存储区)也将涉及用于维护,负载平衡等的大量工作负载。

答案 1 :(得分:13)

Sonian是kimchy在该线程中提到的公司。我们在AWS上跨多个ES集群拥有超过1 PB的容量。水平扩展ES的距离没有技术限制,但正如DNA提到的那样存在实际问题。迄今为止最大的是网络。它适用于每个分布式数据存储。你一次只能在电线上移动这么多。当ES必须从故障中恢复时,它必须移动数据。最好的选择是在更多节点上使用更小的分片(更多的并发传输),但是你冒着更高的故障率和每字节的过高成本的风险。

答案 2 :(得分:0)

AS DNA提到了1700个分片,但它不是1700个分片,而是有1700个索引,每个分片有1个分片和1个副本。因此很可能这些1700索引不在单台机器上,而是分布在多台机器上。 所以这绝不是问题

答案 3 :(得分:-1)

我目前正在与Elisandra(Elasticsearch + Cassandra)合作

我也有问题用弹性搜索索引Cassandra。我的问题基本上是节点配置。

执行$ nodetool status您可以看到Host ID然后毁了:

curl -XGET http://localhost:9200/_cluster/state/?pretty=true

您可以检查其中一个node:是否与Host ID

同名