Question

我正在尝试使用sparklyr R包将spark DataFrame写入S3存储桶。我对存储桶都具有读取和写入访问权限。回写时，出现作业中止错误。目标文件夹在S3中创建，但是为空。我可以使用同一命令并将文件写入本地驱动器，而不会出现任何问题。

Sys.setenv("AWS_ACCESS_KEY_ID" = "hidden","AWS_SECRET_ACCESS_KEY" = "hidden")

myData <- data %>% select(mpg,cyl) %>% filter(cyl == 6)%>% compute()
spark_write_csv(myData , path = 's3a://my-bucket.name/cars',mode = "overwrite")

错误：org.apache.spark.SparkException：作业中止。在org.apache.spark.sql.execution.datasources.FileFormatWriter $ .write（FileFormatWriter.scala：224）在org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run（InsertIntoHadoopFsRelationCommand.scala：154）处在org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult $ lzycompute（commands.scala：104）在org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult（commands.scala：102）在org.apache.spark.sql.execution.command.DataWritingCommandExec.doExecute（commands.scala：122）在org.apache.spark.sql.execution.SparkPlan $$ anonfun $ execute $ 1.apply（SparkPlan.scala：131）在org.apache.spark.sql.execution.SparkPlan $$ anonfun $ execute $ 1.apply（SparkPlan.scala：127）在org.apache.spark.sql.execution.SparkPlan $$ anonfun $ executeQuery $ 1.apply（SparkPlan.scala：155） ...

写入S3存储桶时使用Sparklyr spark_write_csv时出错

0 个答案: