如何在java中的分区中编写拼花文件类似于pyspark?

时间:2016-10-25 08:14:20

标签: hadoop pyspark parquet

我可以在pyspark中将拼花文件写入分区:

rdd.write
 .partitionBy("created_year", "created_month")
 .parquet("hdfs:///my_file")

镶木地板文件自动分区为created_year,created_month。如何在java中做同样的事情?我在ParquetWriter课程中看不到一个选项。是否有其他课程可以做到这一点?

谢谢,

1 个答案:

答案 0 :(得分:1)

您必须将RDD转换为DataFrame,然后调用写拼花功能。

df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])