我最近碰到了一个案例,Cassandra非常适合存储基于时间的事件,每个事件类型都有自定义ttl(另一种解决方案是将其保存在hadoop中并手动进行簿记(ttls和stuff,恕我直言,非常复杂)想法)或切换到hbase)。 问题是如果没有Datastax Enterprise版本,cassandra MapReduce支持的开箱即用效果会很好。
似乎他们在CassandraFS上投入了大量资金,但我问自己是不是正常的猪 CassandraLoader被主动维护并实际扩展(因为它似乎只是迭代切片中的行)。 这适用于数百万行吗?答案 0 :(得分:1)
您可以使用随机分区来映射/缩小,但当然您获得的密钥是随机顺序。你可能想在cassandra中使用CL = 1,所以你不是每次都在读取map / reduce时从2个节点读入,它应该读取本地数据。我虽然没有用过猪。
答案 1 :(得分:-2)
为什么不用hbase? Hbase更适合时间序列数据。您可以轻松地在非常小的群集上放置数十亿行,并在启用WAL的小型3node群集(最高50MB / s)上获得高达每秒500k行的数据。 卡桑德拉有几个缺陷: