Google Dataflow与Apache Spark Streaming(在Google Cloud或Google Dataproc上)

时间:2016-04-19 14:58:56

标签: apache-spark google-cloud-dataflow google-cloud-dataproc

我是Cloud和Big-data的新手,但对这些很感兴趣,我在Java编程方面有丰富的经验。我目前正致力于我的uni项目,用于比较Apache Spark流媒体与Google Cloud Dataflow的性能。我已经阅读了许多文章,包括完成的比较here

据我所知,Spark和Dataflow的编程模型不同,但是由于我在这个领域的有限和新知识,我试图了解这种性能比较是否仍然可以完成? 什么类型的用例对此是正确的?这里应该考虑哪些性能参数用于流应用程序?

在阅读有关Dataflow和Spark的同时,我也遇到了Dataproc,并且还在考虑在数据流与数据流与Spark + Google Cloud之间进行数据流与Spark之间的比较是否更好。

任何有关此事的建议都会受到赞赏,因为我没有明确指出。

1 个答案:

答案 0 :(得分:3)

比较性能的最佳方法是使用真实的端到端数据处理流水线。所以你首先需要回答你自己的问题“什么类型的用例对此是正确的?”因为种类几乎无限。

您可能会在included examples中找到一些灵感。