Question

目前，我正在欧洲地区运行Dataproc集群。我在同一集群上运行spark应用程序。在Spark中使用Google云存储连接器向存储桶写入数据时，将使用Multi-Regional类和美国属性中的多个区域自动创建存储桶。

我正在使用

写入文件

dataframe.write("gs://location").mode()...

这将使用上述属性在位置中创建新存储桶。

试图找到配置以在连接器中设置存储类，但没有成功。我们如何解决这个问题。

Answer 1

来自文档：Cloud Dataproc staging bucket

默认情况下，创建集群时，Cloud Dataproc将在项目中创建Cloud Storage过渡存储段，或重复使用先前集群创建请求中现有的Cloud Dataproc创建的过渡存储段。该存储桶用于暂存群集作业依赖性，作业驱动程序输出和群集配置文件。您可以指定现有的Cloud Storage存储桶，而Cloud Dataproc将其用作集群的存储桶，而不是依赖于默认的存储桶的创建。

如果您通过命令创建Dataproc集群，请尝试添加-region = REGION

gcloud dataproc clusters create cluster-name --region region ...

Answer 2

Google Cloud Storage连接器不支持存储桶位置配置。

通常这不是问题，因为用户使用所需的存储位置写入现有存储桶。

在Spark中更改Google Cloud Storage连接器中的存储桶类（区域/多区域）

2 个答案: