我打算使用ElasticSearch索引我的Cassandra数据库。我想知道是否有人看过ElasticSearch的实际限制。在PB级范围内,事情会变慢吗?另外,有没有人使用ElasticSearch索引Cassandra有什么问题?
答案 0 :(得分:25)
请参阅2011年的this thread,其中提到的ElasticSearch配置包含每个200GB的1700个分片,这些分片将在1/3 PB范围内。我希望ElasticSearch的体系结构支持几乎无限的水平可伸缩性,因为每个分片索引与所有其他分片分开工作。
实际限制(适用于任何其他解决方案)包括首先实际加载大量数据所需的时间。管理该大小的Cassandra集群(或任何其他分布式数据存储区)也将涉及用于维护,负载平衡等的大量工作负载。
答案 1 :(得分:13)
Sonian是kimchy在该线程中提到的公司。我们在AWS上跨多个ES集群拥有超过1 PB的容量。水平扩展ES的距离没有技术限制,但正如DNA提到的那样存在实际问题。迄今为止最大的是网络。它适用于每个分布式数据存储。你一次只能在电线上移动这么多。当ES必须从故障中恢复时,它必须移动数据。最好的选择是在更多节点上使用更小的分片(更多的并发传输),但是你冒着更高的故障率和每字节的过高成本的风险。
答案 2 :(得分:0)
AS DNA提到了1700个分片,但它不是1700个分片,而是有1700个索引,每个分片有1个分片和1个副本。因此很可能这些1700索引不在单台机器上,而是分布在多台机器上。 所以这绝不是问题
答案 3 :(得分:-1)
我目前正在与Elisandra(Elasticsearch + Cassandra)合作
我也有问题用弹性搜索索引Cassandra。我的问题基本上是节点配置。
执行$ nodetool status
您可以看到Host ID
然后毁了:
curl -XGET http://localhost:9200/_cluster/state/?pretty=true
您可以检查其中一个node:
是否与Host ID