是否可以将分区DataFrame写入S3存储桶?

时间:2019-03-17 17:15:20

标签: amazon-web-services amazon-s3 pyspark partitioning aws-glue

我必须将Spark DataFrame写入S3存储桶,并且应该为每个分区创建一个单独的镶木地板文件。

这是我的代码:

dynamicDataFrame = DynamicFrame.fromDF(
                       testDataFrame, glueContext , 
                       "dynamicDataFrame")

glueContext.write_dynamic_frame.from_options(
                  frame = dynamicDataFrame,
                  connection_type = "s3",  
                  connection_options = {
                            "path": "s3://BUCKET_NAME/DIR_NAME",
                             "partitionKeys": ["COL_NAME"]
                  },
                  format = "parquet"
 )

当我指定“ partitionKeys”:[“ COL_NAME”] 选项时,将执行Glue Job,而不会出现任何错误,但不会在S3中创建任何文件。

当我删除此“ partitionKeys”选项时,它将在S3中创建200个实木复合地板文件(默认“无分区”为200)。 但是我想根据特定的列创建分区。

那么,可以在S3中写入DF的同时在S3中创建分区明智的实木复合地板文件吗?

注意:我正在使用AWS资源,即AWS Glue。

1 个答案:

答案 0 :(得分:1)

您确定分区列中有数据吗?

您是否在胶水原木中找到任何东西

相关问题