应用错误收集

时间：2018-08-13 13:41:22

标签： apache-spark google-cloud-platform google-cloud-storage google-cloud-dataproc

我想使用Apache Spark来操纵Google Cloud中的大量数据。

我按照文档操作，启动了具有5个节点的Cloud Dataproc集群。一切正常。

但是我的数据在Google Cloud Storage上，我了解到我可以使用Spark直接查询它，这是Google推荐的。

在这种情况下，是否有必要启动整个集群？ Spark在Google Cloud Storage上和HDFS一样高效吗？

如果没有，那么使用Jupyter和Spark旋转一个大型VM并使用它对GCS上存储的数据运行作业会更容易。

答案 0 :(得分：1)

在Dataproc群集上，您可以使用Spark来处理HDFS和GCS（Google云存储）中的数据，两者的效率均相同。您需要根据计划在Spark工作中执行的计算来确定集群的大小。在比较一个大型VM与多个（较小）VM时，需要考虑很多折衷-主要是在垂直扩展（使用一个VM）时有一个上限。

答案 1 :(得分：0)

如果您只需要分析Google Cloud Storage中的数据，建议您在需要时在dataproc上创建集群。但这仍然取决于这项工作需要多长时间以及您执行该工作的频率。

例如，您有一个计划的每小时ETL作业。您可以每小时创建一个新的cluseter，并在完成工作后删除它。非常划算。