为什么将Apache Druid视为实时数据库?

时间:2019-02-04 18:27:43

标签: druid

这个问题与德鲁伊的销售方式有关。

为什么将其称为实时数据库,据我所知,在可以从DB有效读取任何数据之前,需要使用外部工具(例如Hive或Spark)将繁重的ETL加载到该数据库中,以将半聚合的数据加载到在数据库以有效的基于列存储的方式写入此输入之前,请输入Druid。

我的理解是,由于在两者之间需要进行分析(可能有多个联接),因此在Druid与查询UI之间的通信方面,可以将Druid视为实时的,而在真值源(包括实时事务)和Druid之间则不能视为Druid。

1 个答案:

答案 0 :(得分:1)

Druid通过Kafka Streaming支持实时提取,并且可以立即查询数据,这就是为什么它被视为实时数据存储。

Druid还支持使用Hive和Spark进行批量摄取。

这是有关 Apache Druid 的更多详细信息:

Apache druid是OLAP数据存储,旨在提供亚秒级的查询性能,同时实时或批量提取数据。

要在Druid中提取数据

  • 实时摄取-德鲁伊可以使用Kafka主题实时摄取数据。

  • 批处理摄取-Druid使用Hive和Spark从HDFS读取数据集。在这种情况下,它不是实时的,但有些用例并不需要实时,而只是需要对即席查询具有更快响应时间的要求。

德鲁伊最适合的地方:

  • 具有基于事件的数据的应用程序。

  • 数据更新少

  • 次秒响应时间

何时不应该考虑德鲁伊

  • 大量加入

  • 更多数据更新

热门行业/德鲁伊申请

  • IOT服务

  • 网络监控

  • 数字营销

  • 任何基于时间的流应用程序