使用Google云端存储将Spark RDD保存为textFile

时间:2015-10-14 18:52:46

标签: apache-spark google-cloud-storage

我正在使用Spark 1.5,并希望将我的RDD保存为Google云端存储中的textFile。像下面的东西。

rdd.saveAsTextFile("gs://bucket/file_name")

我找到了this链接。但此连接器适用于在Google Compute Engine内运行的应用程序。是否可以在Google Compute Engine之外使用此连接器?

我尝试使用以下设置,但它似乎不起作用。它因验证错误而失败。有没有我缺少的配置。

val conf = sc.hadoopConfiguration
conf.set("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem")
conf.set("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS")
conf.set("fs.gs.project.id", "celtra-bigquery-eval")
conf.set("google.cloud.auth.service.account.enable", "false")
conf.set("google.cloud.auth.client.file", "/mnt/credentials.json")

请指出一些链接或文件。让我也知道你是否有其他方法可以实现这一目标。感谢。

0 个答案:

没有答案