Cassandra处理历史数据的最佳方式?

时间:2012-12-14 12:59:45

标签: java cassandra hector

我正在使用Cassandra存储历史数据。它是各种物体的集合,可以及时改变它的价值。

列族:对象类型
行:对象ID
列名:时间戳
列值:给定时间的值

在某些时候,数据变为“旧”而不是删除它我想将其存储在其他地方(如另一个列族)或“标记”,以某种方式不与其他数据一起检索。

哪种方法最快?目前我正在使用赫克托执行此操作:
1.读取数据(使用SliceQuery)
2.在antoher列族中写入数据(使用ColumnFamilyUpdater)
3.删除旧数据(也使用ColumnFamilyUpdater)

不确定这是否是最好的做法,但我对卡桑德拉来说还是新手...... 感谢。

1 个答案:

答案 0 :(得分:2)

您的数据不仅会在HDD上发生,而且还会消耗JVM堆,因为行启动过滤器始终在启动时读取 - 重要的是要记住它。

您的解决方案很好 - 您需要读取此数据并将其移动到其他位置。现在有两种选择:

  1. 生成反向索引,以便您可以快速访问旧数据。
  2. 查看所有数据以查找旧记录。如果您将数据集划分为多个Cassandra节点,请考虑使用Hadoop Map Reduce
  3. 第一个解决方案将提供对旧数据的快速访问,但每个插入操作都必须更新索引,这仍然在Cassandra案例中超级快。

    第二种解决方案在日常使用中不需要额外插入,但在移动旧数据时需要全表扫描。如果你能在夜晚开展这样的工作,这是完美的。