德鲁伊用于实时和批处理。但它可以完全取代hadoop吗? 如果不是为什么?至于hadoop对德鲁伊的优势是什么? 我读过德鲁伊与hadoop一起使用。那么可以避免使用Hadoop吗?
答案 0 :(得分:6)
我们在谈论两种略有不同但却截然不同的技术。
德鲁伊是一个实时分析系统,非常适合时间序列和基于时间的事件聚合。
Hadoop是HDFS(分布式文件系统)+ Map Reduce(执行分布式流程的范例),它们共同创建了一个用于分布式处理的生态系统,并作为许多其他开源项目的底层/影响技术。
你可以设置德鲁伊来使用Hadoop;那就是将MR作业触发到索引批处理数据并从HDFS读取其索引数据(当然它会将它们本地缓存在本地磁盘上)
如果你想忽略Hadoop,你也可以从本地机器进行索引和加载,当然还有一个机器的惩罚。
答案 1 :(得分:4)
你能避免在德鲁伊使用Hadoop吗?是的,您可以将数据实时传输到Druid集群,而不是使用Hadoop批量加载它。一种方法是将数据流式传输到Kafka,它将处理传入的事件并将它们传递给Storm,然后可以处理它们并将它们加载到Druid Realtime节点中。
通常,此设置 与Hadoop并行使用,因为流式实时数据带有自己的行李,通常需要修复和回填。整个架构被一些人称为"Lambda"。
答案 2 :(得分:0)
德鲁伊用于实时和批处理。但它可以完全取代hadoop吗?如果不是为什么?
这取决于您的情况。查看 Druid 官方网站文档。
德鲁伊是以下用例的不错选择:
德鲁伊不是以下用例的好选择
因此,如果您正在寻找查询延迟不重要的离线报告系统,Hadoop 可能会在这种情况下得分。