我正在对实时推特流媒体数据进行一些分析。我听说过Spark Streaming。我想知道哪些最适合实时流数据的分析,因为我的数据来源非常快。
答案 0 :(得分:3)
我推荐这个关于这个主题的演讲: http://fr.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming
事实上,apache storm是一个真正的流式架构,事件是逐个管理的,如果你想对它们进行分组,你必须为此设计一个拓扑。它在延迟和设计方面是最强大的。但它当然很复杂,你必须正确设计你想要的东西。
另一方面,apache spark是一个微批处理架构,它就像hadoop,但每隔x秒执行一次,在定义的时间窗口上产生微批量的数据。因为它看起来像一个批处理解决方案,它似乎更简单,如果你不想要延迟<几秒钟。
答案 1 :(得分:3)
除了由@zenbeni链接的非常好的演示文稿之外,我想基于Storm和Spark流媒体的第一手经验添加一些特定点,特别是关于您的用例(Twitter数据)。