写入S3存储桶时使用Sparklyr spark_write_csv时出错

时间:2020-07-05 08:39:49

标签: r amazon-s3 apache-spark-sql sparklyr

我正在尝试使用sparklyr R包将spark DataFrame写入S3存储桶。 我对存储桶都具有读取和写入访问权限。回写时,出现作业中止错误。目标文件夹在S3中创建,但是为空。 我可以使用同一命令并将文件写入本地驱动器,而不会出现任何问题。

Sys.setenv("AWS_ACCESS_KEY_ID" = "hidden","AWS_SECRET_ACCESS_KEY" = "hidden")

myData <- data %>% select(mpg,cyl) %>% filter(cyl == 6)%>% compute()
spark_write_csv(myData , path = 's3a://my-bucket.name/cars',mode = "overwrite")

 

错误:org.apache.spark.SparkException:作业中止。 在org.apache.spark.sql.execution.datasources.FileFormatWriter $ .write(FileFormatWriter.scala:224) 在org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:154)处 在org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult $ lzycompute(commands.scala:104) 在org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult(commands.scala:102) 在org.apache.spark.sql.execution.command.DataWritingCommandExec.doExecute(commands.scala:122) 在org.apache.spark.sql.execution.SparkPlan $$ anonfun $ execute $ 1.apply(SparkPlan.scala:131) 在org.apache.spark.sql.execution.SparkPlan $$ anonfun $ execute $ 1.apply(SparkPlan.scala:127) 在org.apache.spark.sql.execution.SparkPlan $$ anonfun $ executeQuery $ 1.apply(SparkPlan.scala:155) ...

0 个答案:

没有答案