Twitter Storm v / s Apache Hadoop

时间:2013-08-07 09:10:16

标签: hadoop apache-storm

如果有人能解释一下Twitter Storm和Apache Hadoop之间的架构差异,那会很棒吗?我正在寻找一些超越实时v / s批处理的内部东西。由于两种技术在为Hadoop编写Storm拓扑或map-reduce方面都非常相似,在Hadoop的任务跟踪器/作业跟踪器和Storm的等效nimbus / supervisor方面,在Hadoop分区和等效混乱方面(随机) Storm等等(如果我说Storm在内部使用消息队列在spouts / bolt之间传输数据,这是正确的,这与Hadoop不完全相同,其中有中间文件创建,因此I / O参与。)

编辑:

我已经完成了Apache Storm compared to Hadoop这个问题,但是接受的答案让我想要了解的不仅仅是用例,即实时v / s批量处理。

2 个答案:

答案 0 :(得分:7)

主要的不同点是,Storm可以对Tupple流(传入数据)进行实时处理,而Hadoop则使用MapReduce作业进行批处理。

他们都以分布式的方式处理数据,但是在暴风雨中你可以有现场分析,而你必须等到mapreduce工作完成才能玩你的结果。

答案 1 :(得分:3)

Nathan Marz(风暴创作者)正在写一本关于Big Data的书,在那里他讨论了如何使用Hadoop,Storm和其他技术创建大数据系统。

这本书正在讨论“The Lambda Architecture”。 Nathan Marz自己查看了这张幻灯片:Runaway complexity in Big Data... and a plan to stop it