Google Cloud,群集或无群集上的Apache Spark

时间:2018-08-13 13:41:22

标签: apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc

我想使用Apache Spark来操纵Google Cloud中的大量数据。

我按照文档操作,启动了具有5个节点的Cloud Dataproc集群。一切正常。

但是我的数据在Google Cloud Storage上,我了解到我可以使用Spark直接查询它,这是Google推荐的。

在这种情况下,是否有必要启动整个集群? Spark在Google Cloud Storage上和HDFS一样高效吗?

如果没有,那么使用Jupyter和Spark旋转一个大型VM并使用它对GCS上存储的数据运行作业会更容易。

2 个答案:

答案 0 :(得分:1)

在Dataproc群集上,您可以使用Spark来处理HDFS和GCS(Google云存储)中的数据,两者的效率均相同。您需要根据计划在Spark工作中执行的计算来确定集群的大小。在比较一个大型VM与多个(较小)VM时,需要考虑很多折衷-主要是在垂直扩展(使用一个VM)时有一个上限。

答案 1 :(得分:0)

如果您只需要分析Google Cloud Storage中的数据,建议您在需要时在dataproc上创建集群。但这仍然取决于这项工作需要多长时间以及您执行该工作的频率。

例如,您有一个计划的每小时ETL作业。您可以每小时创建一个新的cluseter,并在完成工作后删除它。非常划算。