使用Hadoop存储和处理时间序列

时间:2016-09-12 13:01:52

标签: hadoop apache-spark hbase time-series opentsdb

我想从设备中存储大量的时间序列。这些时间序列也必须经过验证,可由操作员修改,并且必须导出到其他系统。必须找到时间序列中的孔。必须在按序列号和日期范围过滤的UI中显示时间序列。

我们考虑过在这种情况下使用hadoop,hbase,opentsdb和spark。

你怎么看? Spark可以轻松连接到opentsdb吗?

由于

3 个答案:

答案 0 :(得分:2)

OpenTSDB非常适合存储大量时间序列数据。在内部,它受到HBase的支持 - 这意味着它必须找到解决HBase限制的方法才能表现良好。结果,时间序列的表示被高度优化并且不易于解码。 AFAIK,没有开箱即用的连接器可以将数据从OpenTSDB提取到Spark。

以下GitHub项目可能会为您提供一些指导:

Achak1987's connector

如果您正在寻找可以帮助您了解时间序列的库,请查看spark-ts - 它包含有用的函数,用于丢失数据插补。

答案 1 :(得分:1)

查看具有相当独特的Axibase Time Series Database功能的versioning,以维护相同时间戳的值更改历史记录。一旦启用了每度量的粒度,数据库就会跟踪审计跟踪或数据协调的值修改的来源,状态和时间。

我们的客户使用Network API从Spark应用程序流式传输数据,通常一旦数据富含额外的元数据(aks系列标签),就可以进行下游报告。

您可以使用REST API或SQL从ATSD查询数据。

免责声明:我为Axibase工作。

答案 2 :(得分:1)

Warp 10提供WarpScript语言,可以使用Spark / Pig / Flink来操作时间序列,并通过Warp10InputFormat访问存储在Warp 10中的数据。

Warp 10是开源的,可在www.warp10.io获取

免责声明:我是Warp 10制造商Cityzen Data的首席技术官。