我必须将Spark DataFrame写入S3存储桶,并且应该为每个分区创建一个单独的镶木地板文件。
这是我的代码:
dynamicDataFrame = DynamicFrame.fromDF(
testDataFrame, glueContext ,
"dynamicDataFrame")
glueContext.write_dynamic_frame.from_options(
frame = dynamicDataFrame,
connection_type = "s3",
connection_options = {
"path": "s3://BUCKET_NAME/DIR_NAME",
"partitionKeys": ["COL_NAME"]
},
format = "parquet"
)
当我指定“ partitionKeys”:[“ COL_NAME”] 选项时,将执行Glue Job,而不会出现任何错误,但不会在S3中创建任何文件。
当我删除此“ partitionKeys”选项时,它将在S3中创建200个实木复合地板文件(默认“无分区”为200)。 但是我想根据特定的列创建分区。
那么,可以在S3中写入DF的同时在S3中创建分区明智的实木复合地板文件吗?
注意:我正在使用AWS资源,即AWS Glue。
答案 0 :(得分:1)
您确定分区列中有数据吗?
您是否在胶水原木中找到任何东西