我想从设备中存储大量的时间序列。这些时间序列也必须经过验证,可由操作员修改,并且必须导出到其他系统。必须找到时间序列中的孔。必须在按序列号和日期范围过滤的UI中显示时间序列。
我们考虑过在这种情况下使用hadoop,hbase,opentsdb和spark。
你怎么看? Spark可以轻松连接到opentsdb吗?
由于
答案 0 :(得分:2)
OpenTSDB非常适合存储大量时间序列数据。在内部,它受到HBase的支持 - 这意味着它必须找到解决HBase限制的方法才能表现良好。结果,时间序列的表示被高度优化并且不易于解码。 AFAIK,没有开箱即用的连接器可以将数据从OpenTSDB提取到Spark。
以下GitHub项目可能会为您提供一些指导:
如果您正在寻找可以帮助您了解时间序列的库,请查看spark-ts - 它包含有用的函数,用于丢失数据插补。
答案 1 :(得分:1)
查看具有相当独特的Axibase Time Series Database功能的versioning,以维护相同时间戳的值更改历史记录。一旦启用了每度量的粒度,数据库就会跟踪审计跟踪或数据协调的值修改的来源,状态和时间。
我们的客户使用Network API从Spark应用程序流式传输数据,通常一旦数据富含额外的元数据(aks系列标签),就可以进行下游报告。
您可以使用REST API或SQL从ATSD查询数据。
免责声明:我为Axibase工作。
答案 2 :(得分:1)
Warp 10提供WarpScript语言,可以使用Spark / Pig / Flink来操作时间序列,并通过Warp10InputFormat访问存储在Warp 10中的数据。
Warp 10是开源的,可在www.warp10.io获取
免责声明:我是Warp 10制造商Cityzen Data的首席技术官。