在pyspark中,我有一个数据框,其中包含截断日期的日期列
# +-------------------+
# |d |
# +-------------------+
# |2018-04-07 00:00:00|
# +-------------------+
当我这样做时:
df.write.partitionBy('d').parquet('s3://somebucket/out/')
...我希望找到一个名为:
的密钥s3://somebucket/out/d=2018-04-07 00:00:00/part-*-c*.snappy.parquet
......但是,相反,我发现了这个:
s3://somebucket/out/d=2018-04-07 00%3A00%3A00/part-*-c*.snappy.parquet
(请注意'%3A'而不是':')
这对athena / hive / etc分区造成了严重破坏。
有没有办法让pyspark使用真正的冒号而不是将其编码为%3A?