Apache Spark镶木地板分区

时间:2016-08-05 15:25:54

标签: apache-spark amazon-s3 pyspark spark-dataframe parquet

我正在尝试使用日期作为分区键在Amazon S3镶木地板文件夹中保存DataFrame。我正在逐日加载数据。

我第一次保存时看到分区文件夹(即“txDate = 20160714”)。

当我处理下一个文件时,它们全都转到“txDate = __ HIVE_DEFAULT_PARTITION__”:see parquet Hive partitions

txDate是int

我正在使用Databricks平台,Apache Spark 1.6.2和Hadoop 2。

我的代码是Python(Pyspark)

# initial save
df_newTx.write.partitionBy(['txDate']).format('parquet').mode('append').save("/mnt/dm.Inv/f_Tx.parquet")

# incremental save
df_tx_all.write.partitionBy(['txDate']).format('parquet').mode('append').save("/mnt/dm.Inv/f_Tx.parquet")

0 个答案:

没有答案