我曾参与过Storm和Spark,但是Samza很新。
我不明白为什么在Storm已经进行实时处理时会引入Samza。 Spark在内存中提供近实时处理,并具有其他非常有用的组件如graphx和mllib。
Samza带来了哪些改进以及可能的进一步改进?
答案 0 :(得分:14)
This是对差异和利弊的一个很好的总结。
我只想补充一点,实际上不是 new的Samza带来了一定的简单性,因为它对使用Kafka作为后端持主观态度,而其他人则试图更加通用简单的代价。 Samza是由创建Kafka的同一个人开创的,他们也是Kappa Architecture背后的同一个人 - 主要是以前的LinkedIn的Jay Kreps。那太酷了。
此外,编程模型与Samza的实时流,Spark Streaming中的微型游戏(与Spark不完全相同)以及Storm中带有元组的spouts和bolt之间完全不同。
这些都不是“更好”。这完全取决于您的使用案例,您的团队的优势,API如何与您的心理模型匹配,支持质量等。
你也忘记了Apache Flink和Twitter的Heron,因为Storm开始失败了。然后,很少有人需要按照Twitter的规模运作。