我可以在pyspark中将拼花文件写入分区:
rdd.write
.partitionBy("created_year", "created_month")
.parquet("hdfs:///my_file")
镶木地板文件自动分区为created_year,created_month。如何在java中做同样的事情?我在ParquetWriter课程中看不到一个选项。是否有其他课程可以做到这一点?
谢谢,
答案 0 :(得分:1)
您必须将RDD转换为DataFrame,然后调用写拼花功能。
df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])