目前,我正在欧洲地区运行Dataproc集群。 我在同一集群上运行spark应用程序。在Spark中使用Google云存储连接器向存储桶写入数据时,将使用Multi-Regional类和美国属性中的多个区域自动创建存储桶。
我正在使用
写入文件dataframe.write("gs://location").mode()...
这将使用上述属性在位置中创建新存储桶。
试图找到配置以在连接器中设置存储类,但没有成功。我们如何解决这个问题。
答案 0 :(得分:2)
来自文档:Cloud Dataproc staging bucket
默认情况下,创建集群时,Cloud Dataproc将在项目中创建Cloud Storage过渡存储段,或重复使用先前集群创建请求中现有的Cloud Dataproc创建的过渡存储段。该存储桶用于暂存群集作业依赖性,作业驱动程序输出和群集配置文件。您可以指定现有的Cloud Storage存储桶,而Cloud Dataproc将其用作集群的存储桶,而不是依赖于默认的存储桶的创建。
如果您通过命令创建Dataproc集群,请尝试添加-region = REGION
gcloud dataproc clusters create cluster-name --region region ...
答案 1 :(得分:0)
Google Cloud Storage连接器不支持存储桶位置配置。
通常这不是问题,因为用户使用所需的存储位置写入现有存储桶。