Flink还是Spark?当流媒体不重要时

时间:2017-05-19 22:16:13

标签: apache-spark apache-flink

我最近一直在比较Spark和Flink的全新项目。在这个项目中,流媒体功能并不那么重要。批量分析~90TB数据是最重要的。稍后我将在数据分析中应用ML和数据挖掘。

在搜索时,我发现很多文章,演示文稿和视频声称Flink是下一代分析解决方案。不要看太多文章来捍卫Spark。另一方面,Spark是(或者是?)非常受欢迎并广泛部署在非常大的生产系统中。

我的问题是:对于我的用例,即流媒体并不重要,我应该接受Flink还是从Spark 2开始?

BTW,我通读了this thread。它没有给我一个很好的答案。

更新,2018年4月:最终我们选择了Spark。显然除了表现之外还有更多问题需要解决。 Cloudera,Hortonworks和HDInsight为企业架构师和安全审核人员提供了安全性,稳定性,规模,路线图等方面的信心/证据。

1 个答案:

答案 0 :(得分:2)

根据您的要求, Apache Spark最好 Spark Flink 都是先进的大数据处理技术。在功能稳定性生态系统社区集成 方面与其他系统适应性 Spark 远远超过 Flink

Spark Flink 之间的主要区别是: Spark 是一个批量处理系统,它有< strong>流式抽象,而 Flink 流式数据处理系统,用于处理无界数据集,并且批量处理抽象以批处理方式处理有界数据集。

Spark适用于大量数据集的 ETL 机器学习,流媒体,数据仓库图形处理。 Flink最适合大型和无界数据集上的流处理

[Apache的弗林克] [Apache的火花]