如果有人能解释一下Twitter Storm和Apache Hadoop之间的架构差异,那会很棒吗?我正在寻找一些超越实时v / s批处理的内部东西。由于两种技术在为Hadoop编写Storm拓扑或map-reduce方面都非常相似,在Hadoop的任务跟踪器/作业跟踪器和Storm的等效nimbus / supervisor方面,在Hadoop分区和等效混乱方面(随机) Storm等等(如果我说Storm在内部使用消息队列在spouts / bolt之间传输数据,这是正确的,这与Hadoop不完全相同,其中有中间文件创建,因此I / O参与。)
编辑:
我已经完成了Apache Storm compared to Hadoop这个问题,但是接受的答案让我想要了解的不仅仅是用例,即实时v / s批量处理。
答案 0 :(得分:7)
主要的不同点是,Storm可以对Tupple流(传入数据)进行实时处理,而Hadoop则使用MapReduce作业进行批处理。
他们都以分布式的方式处理数据,但是在暴风雨中你可以有现场分析,而你必须等到mapreduce工作完成才能玩你的结果。
答案 1 :(得分:3)
这本书正在讨论“The Lambda Architecture”。 Nathan Marz自己查看了这张幻灯片:Runaway complexity in Big Data... and a plan to stop it