Question

我必须将Spark DataFrame写入S3存储桶，并且应该为每个分区创建一个单独的镶木地板文件。

这是我的代码：

dynamicDataFrame = DynamicFrame.fromDF(
                       testDataFrame, glueContext , 
                       "dynamicDataFrame")

glueContext.write_dynamic_frame.from_options(
                  frame = dynamicDataFrame,
                  connection_type = "s3",  
                  connection_options = {
                            "path": "s3://BUCKET_NAME/DIR_NAME",
                             "partitionKeys": ["COL_NAME"]
                  },
                  format = "parquet"
 )

当我指定“ partitionKeys”：[“ COL_NAME”] 选项时，将执行Glue Job，而不会出现任何错误，但不会在S3中创建任何文件。

当我删除此“ partitionKeys”选项时，它将在S3中创建200个实木复合地板文件（默认“无分区”为200）。但是我想根据特定的列创建分区。

那么，可以在S3中写入DF的同时在S3中创建分区明智的实木复合地板文件吗？

注意：我正在使用AWS资源，即AWS Glue。

Answer 1

您确定分区列中有数据吗？

您是否在胶水原木中找到任何东西

是否可以将分区DataFrame写入S3存储桶？

1 个答案: