Cassandra快速阅读配置

时间:2015-09-14 07:19:32

标签: cassandra

我在一个数据中心有4个Cassandra节点和1个种子。我有大约5M的记录,其中Cassandra需要大约4分钟来读取MySQL的位置,它只需要17秒。所以我的猜测是我的配置有问题。所以任何人都可以让我知道配置属性,所以我必须在Cassandra.yaml中查看。

1 个答案:

答案 0 :(得分:1)

如果您正在从一个客户端读取所有5M记录,则可能正在进行苹果与橙子的比较。

使用MySQL,所有数据都是本地的,并且因为数据在适当的位置更新而针对读取进行了优化。

Cassandra是为写入而分发和优化的。写入是简单的附加,但读取很昂贵,因为需要读取和合并所有附加以获取每列的当前值。

由于数据分布在多个节点上,因此通过网络访问和检索数据会产生大量开销。

如果您使用Spark和Cassandra并将数据并行加载到Spark工作程序中而不将其通过网络拖拽到单个客户端,那么这将是一个更类似的比较。

Cassandra通常善于摄取大量数据,然后处理它的一小部分(即分区),而不是进行表扫描操作,例如读取整个表。