德鲁伊可以取代hadoop吗?

时间:2014-06-09 14:03:05

标签: hadoop druid

德鲁伊用于实时和批处理。但它可以完全取代hadoop吗? 如果不是为什么?至于hadoop对德鲁伊的优势是什么? 我读过德鲁伊与hadoop一起使用。那么可以避免使用Hadoop吗?

3 个答案:

答案 0 :(得分:6)

我们在谈论两种略有不同但却截然不同的技术。

德鲁伊是一个实时分析系统,非常适合时间序列和基于时间的事件聚合。

Hadoop是HDFS(分布式文件系统)+ Map Reduce(执行分布式流程的范例),它们共同创建了一个用于分布式处理的生态系统,并作为许多其他开源项目的底层/影响技术。

你可以设置德鲁伊来使用Hadoop;那就是将MR作业触发到索引批处理数据并从HDFS读取其索引数据(当然它会将它们本地缓存在本地磁盘上)

如果你想忽略Hadoop,你也可以从本地机器进行索引和加载,当然还有一个机器的惩罚。

答案 1 :(得分:4)

你能避免在德鲁伊使用Hadoop吗?是的,您可以将数据实时传输到Druid集群,而不是使用Hadoop批量加载它。一种方法是将数据流式传输到Kafka,它将处理传入的事件并将它们传递给Storm,然后可以处理它们并将它们加载到Druid Realtime节点中。

通常,此设置 与Hadoop并行使用,因为流式实时数据带有自己的行李,通常需要修复和回填。整个架构被一些人称为"Lambda"

答案 2 :(得分:0)

<块引用>

德鲁伊用于实时和批处理。但它可以完全取代hadoop吗?如果不是为什么?

这取决于您的情况。查看 Druid 官方网站文档。

德鲁伊是以下用例的不错选择

  1. 插入率非常高,但更新较少
  2. 大多数查询都是聚合和报告,具有 100 毫秒到几秒的低延迟。
  3. 数据具有时间分量
  4. 从 Kafka、HDFS、平面文件或对象存储(如 Amazon S3)加载数据

德鲁伊不是以下用例的好选择

  1. 需要使用主键对现有记录进行低延迟更新。 Druid 支持流式插入,但不支持流式更新
  2. 构建离线报告系统,其中查询延迟不是很重要。
  3. 在大连接的情况下

因此,如果您正在寻找查询延迟不重要的离线报告系统,Hadoop 可能会在这种情况下得分。