在Spark中更改Google Cloud Storage连接器中的存储桶类(区域/多区域)

时间:2019-06-09 06:36:48

标签: apache-spark google-cloud-storage google-cloud-dataproc

目前,我正在欧洲地区运行Dataproc集群。 我在同一集群上运行spark应用程序。在Spark中使用Google云存储连接器向存储桶写入数据时,将使用Multi-Regional类和美国属性中的多个区域自动创建存储桶。

我正在使用

写入文件
dataframe.write("gs://location").mode()...

这将使用上述属性在位置中创建新存储桶。

试图找到配置以在连接器中设置存储类,但没有成功。我们如何解决这个问题。

2 个答案:

答案 0 :(得分:2)

来自文档:Cloud Dataproc staging bucket

  

默认情况下,创建集群时,Cloud Dataproc将在项目中创建Cloud Storage过渡存储段,或重复使用先前集群创建请求中现有的Cloud Dataproc创建的过渡存储段。该存储桶用于暂存群集作业依赖性,作业驱动程序输出和群集配置文件。您可以指定现有的Cloud Storage存储桶,而Cloud Dataproc将其用作集群的存储桶,而不是依赖于默认的存储桶的创建。

如果您通过命令创建Dataproc集群,请尝试添加-region = REGION

gcloud dataproc clusters create cluster-name --region region ...

答案 1 :(得分:0)

Google Cloud Storage连接器不支持存储桶位置配置。

通常这不是问题,因为用户使用所需的存储位置写入现有存储桶。