这是时间序列日志数据更好的NOSQL解决方案

时间:2014-07-07 14:56:19

标签: hbase time-series schema nosql

我需要一些建议来选择NOSQL解决方案以及如何为我的数据设计架构。 现在我正在考虑Hbase,但如果你认为这不是一个好的选择,请给我建议。

我在文本中有大约10TB(少一点)的日志数据。 格式是这样的。

| key1 | key2 | timestamp | column1 | column2 | column3 | column 4 |

以下是我的要求。

  1. 我需要通过{key1,key2}获取数据,结果将是{timestamp,column1}的数组或{timestamp,columnN}的数组。每个数组大小不会超过一千。
  2. 需要使用日期范围过滤器获取数据。
  3. key1的唯一计数可能超过十亿。这就是为什么数据量如此之大。
  4. column1和column2几乎不能一起访问。
  5. 结果数组大小会随着时间的推移而增长,所以我需要清理一些旧数据。 (列值不会被修改,但会在数据过期时删除。)
  6. 现在我认为架构看起来像这样。

    rowkey - | key1, key2 | column family - column1_type, column2_type , ..... , columnN_type column - key :timestamp, value: columnN_value

    我没有Hbase的经验。一条建议将非常有帮助 感谢。

1 个答案:

答案 0 :(得分:0)

现有的解决方案OpenTSDB可用于处理时间序列数据。 OpenTSDB是可扩展的分布式时间序列数据库。它使用HBase来存储和检索时间序列数据。