我想使用Apache Spark来操纵Google Cloud中的大量数据。
我按照文档操作,启动了具有5个节点的Cloud Dataproc集群。一切正常。
但是我的数据在Google Cloud Storage上,我了解到我可以使用Spark直接查询它,这是Google推荐的。
在这种情况下,是否有必要启动整个集群? Spark在Google Cloud Storage上和HDFS一样高效吗?
如果没有,那么使用Jupyter和Spark旋转一个大型VM并使用它对GCS上存储的数据运行作业会更容易。
答案 0 :(得分:1)
在Dataproc群集上,您可以使用Spark来处理HDFS和GCS(Google云存储)中的数据,两者的效率均相同。您需要根据计划在Spark工作中执行的计算来确定集群的大小。在比较一个大型VM与多个(较小)VM时,需要考虑很多折衷-主要是在垂直扩展(使用一个VM)时有一个上限。
答案 1 :(得分:0)
如果您只需要分析Google Cloud Storage中的数据,建议您在需要时在dataproc上创建集群。但这仍然取决于这项工作需要多长时间以及您执行该工作的频率。
例如,您有一个计划的每小时ETL作业。您可以每小时创建一个新的cluseter,并在完成工作后删除它。非常划算。