如何在 dataproc 上运行 hudi 并写入 gcs 存储桶

时间:2021-04-12 15:54:44

标签: google-cloud-dataproc apache-hudi dataproc

我想使用 hudi 从 dataproc 写入 gcs 存储桶。

要使用 hudi 写入 gcs,它说将 prop fs.defaultFS 设置为值 gs:// (https://hudi.apache.org/docs/gcs_hoodie)

但是,当我将 dataproc 上的 fs.defaultFS 设置为 gcs 存储桶时,我在启动时遇到与无法找到我的 jar 的作业相关的错误。它正在查找 gs:/ 前缀,大概是因为我已经覆盖了它以前使用 find the jar 的 defaultFs。我该如何解决这个问题?

org.apache.spark.SparkException: Application application_1617963833977_0009 failed 2 times due to AM Container for appattempt_1617963833977_0009_000002 exited with  exitCode: -1000
Failing this attempt.Diagnostics: [2021-04-12 15:36:05.142]java.io.FileNotFoundException: File not found : gs:/user/root/.sparkStaging/application_1617963833977_0009/myjar.jar

如果相关,我将从代码中设置 defaultFs。 sparkConfig.set("spark.hadoop.fs.defaultFS", gs://defaultFs)

1 个答案:

答案 0 :(得分:0)

您可以在创建集群时尝试将 fs.defaultFS 设置为 GCS。例如:

gcloud dataproc clusters create ...\
   --properties 'core:fs.defaultFS=gs://my-bucket'