Apache Kudu与InfluxDB关于快速分析的时间序列数据

时间:2016-09-25 03:53:42

标签: time-series influxdb apache-kudu

Apache Kudu如何与InfluxDB比较需要快速分析的物联网传感器数据(例如机器人技术)?

Kudu最近发布了v1.0我有一些关于Kudu如何处理以下问题的具体问题:

  1. 拆分?
  2. 数据保留政策(保留指定数量的数据点的数据,或时间以及之后聚合/丢弃数据)?
  3. 是否有汇总/汇总功能(例如将1s间隔数据转换为1分钟间隔数据)?
  4. 是否支持连续查询(即数据的物化视图 - 查询以持续查看60秒)?
  5. 如何在磁盘和内存之间存储数据?
  6. 可以从不规则时间序列中引入常规时间序列(将不规则事件数据转换为常规时间间隔)吗?
  7. Kudu和InfluxDB之间还有其他明显的优势和/或弱点吗?

1 个答案:

答案 0 :(得分:2)

Kudu是一个比InfluxDB低得多的数据存储区。它更像是一个分布式文件系统,它提供了一些类似数据库的功能,而不是一个完整的数据库。它目前依赖于诸如Impala之类的查询引擎来查找存储在Kudu中的数据。

Kudu也很年轻。有可能构建一个时间序列数据库,其中kudu作为其下的分布式存储,但目前最接近的实现是this proof of concept project

关于你问题的答案。

1)Kudu将数据存储在平板电脑中,并提供两种分区数据的方式:Range Partitions and Hash based Partitioning

2)Nope虽然如果数据是使用范围分区构建的,但删除平板电脑应该是一种有效的操作(类似于InfluxDB在删除数据时丢弃整个分片的方式)。

3)与Kudu一起工作的查询引擎能够做到这一点,例如impala或spark。

4)Impala确实支持views

5)数据以类似于Parquet的柱状格式存储,但Kudu的一大卖点是Kudu允许柱状数据变得可变,这对于当前的镶木地板文件来说是非常困难的。

6)虽然我确信你可以得到火花或黑斑羚这样做,但它不是内置功能。<​​/ p>

Kudu仍然是一个新项目,它的设计并不是为了与InfluxDB竞争,而是为InfluxDB等服务提供高度可扩展且高性能的存储层。将数据附加到类似于数据结构的镶木地板的能力确实令人兴奋,因为它可以消除对lambda架构的需求。