我最近一直在比较Spark和Flink的全新项目。在这个项目中,流媒体功能并不那么重要。批量分析~90TB数据是最重要的。稍后我将在数据分析中应用ML和数据挖掘。
在搜索时,我发现很多文章,演示文稿和视频声称Flink是下一代分析解决方案。不要看太多文章来捍卫Spark。另一方面,Spark是(或者是?)非常受欢迎并广泛部署在非常大的生产系统中。
我的问题是:对于我的用例,即流媒体并不重要,我应该接受Flink还是从Spark 2开始?
BTW,我通读了this thread。它没有给我一个很好的答案。
更新,2018年4月:最终我们选择了Spark。显然除了表现之外还有更多问题需要解决。 Cloudera,Hortonworks和HDInsight为企业架构师和安全审核人员提供了安全性,稳定性,规模,路线图等方面的信心/证据。
答案 0 :(得分:2)
根据您的要求, Apache Spark最好。 Spark 和 Flink 都是先进的大数据处理技术。在功能,稳定性,生态系统,社区,集成 方面与其他系统和适应性 Spark 远远超过 Flink 。
Spark 与 Flink 之间的主要区别是: Spark 是一个批量处理系统,它有< strong>流式抽象,而 Flink 是流式数据处理系统,用于处理无界数据集,并且批量处理抽象以批处理方式处理有界数据集。
Spark适用于大量数据集的 ETL ,机器学习,流媒体,数据仓库和图形处理。 Flink最适合大型和无界数据集上的流处理。
[Apache的弗林克] [Apache的火花]