Cassandra多功能表现

时间:2011-04-21 16:49:58

标签: cassandra pycassa

我有一个cassandra集群,行数相当少(200万左右,我希望cassandra“小”)。每行都键入一个唯一的UUID,每行有大约200列(给出或取一些)。总而言之,这些是非常小的行,没有二进制数据或大量文本。只是简短的字符串。

我刚从旧数据库完成了对cassandra集群的初始导入。我已经在每台机器上调整了cassandra的地狱。有数亿次写入,但没有读取。现在是时候使用这个东西了,我发现读取速度绝对令人沮丧。我正在使用pycassa在一个500到10000行的任何地方进行多项目。即使在500行,性能也很糟糕,有时需要30秒以上。

什么会导致这种行为?在像这样大量导入之后,你会推荐什么样的东西?感谢。

2 个答案:

答案 0 :(得分:6)

听起来像是你的瓶颈。如果您的数据适合ram,Cassandra每核心大约需要4000次读取/秒。否则你会像其他任何东西一样受到追捧。

我注意到,通常“调整地狱”的系统会保留在你开始加载它之后。 :)

见:

答案 1 :(得分:2)

是否可以将多个游戏分成更小的块?通过这样做,您可以将您的获取扩展到多个节点,并可能通过在节点之间分配负载并使用较小的数据包进行反序列化来提高性能。

这让我想到了下一个问题,你的阅读一致性是什么?除了@jbellis提到的IO瓶颈之外,如果您需要特别高的一致性,也可能会遇到网络流量问题。