应用错误收集

时间：2014-06-09 14:03:05

标签： hadoop druid

德鲁伊用于实时和批处理。但它可以完全取代hadoop吗？如果不是为什么？至于hadoop对德鲁伊的优势是什么？我读过德鲁伊与hadoop一起使用。那么可以避免使用Hadoop吗？

答案 0 :(得分：6)

我们在谈论两种略有不同但却截然不同的技术。

德鲁伊是一个实时分析系统，非常适合时间序列和基于时间的事件聚合。

Hadoop是HDFS（分布式文件系统）+ Map Reduce（执行分布式流程的范例），它们共同创建了一个用于分布式处理的生态系统，并作为许多其他开源项目的底层/影响技术。

你可以设置德鲁伊来使用Hadoop;那就是将MR作业触发到索引批处理数据并从HDFS读取其索引数据（当然它会将它们本地缓存在本地磁盘上）

如果你想忽略Hadoop，你也可以从本地机器进行索引和加载，当然还有一个机器的惩罚。

答案 1 :(得分：4)

你能避免在德鲁伊使用Hadoop吗？是的，您可以将数据实时传输到Druid集群，而不是使用Hadoop批量加载它。一种方法是将数据流式传输到Kafka，它将处理传入的事件并将它们传递给Storm，然后可以处理它们并将它们加载到Druid Realtime节点中。

通常，此设置与Hadoop并行使用，因为流式实时数据带有自己的行李，通常需要修复和回填。整个架构被一些人称为"Lambda"。

答案 2 :(得分：0)

<块引用>

德鲁伊用于实时和批处理。但它可以完全取代hadoop吗？如果不是为什么？

这取决于您的情况。查看 Druid 官方网站文档。

德鲁伊是以下用例的不错选择：

德鲁伊不是以下用例的好选择

因此，如果您正在寻找查询延迟不重要的离线报告系统，Hadoop 可能会在这种情况下得分。