如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)?

时间:2017-03-15 07:36:13

标签: apache-spark pyspark apache-spark-sql pyspark-sql biginsights

如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)?

df.show() --> 2 rows
+------+--------------+----------------+
| name|favorite_color|favorite_numbers|
+------+--------------+----------------+
|Alyssa| null| [3, 9, 15, 20]| | Ben| red| []|
+------+--------------+----------------+

df.rdd.getNumPartitions() - 它有1个分区

>>> df.rdd.getNumPartitions()

1

df.write.save("/user/hduser/data_check/test.parquet", format="parquet")

如果我使用上述命令在HDFS中创建镶木地板文件,它将在"payloads.parquet"中创建目录HDFS,并在该目录内部保存多个文件.parquet文件,元数据文件。

找到4项

-rw-r--r-- 3 bimodjoul biusers 0 2017-03-15 06:47 
/user/hduser/data_check/test.parquet/_SUCCESS 
-rw-r--r-- 3 bimodjoul biusers 494 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_common_metadata
-rw-r--r-- 3 bimodjoul biusers 862 2017-03-15 06:47
/user/hduser/data_check/test.parquet/_metadata 
-rw-r--r-- 3 bimodjoul biusers 885 2017-03-15 06:47
/user/hduser/data_check/test.parquet/part-r-00000-f83a2ffd-38bb-4c76-9f4c-357e43d9708b.gz.parquet

如何将数据框中的数据写入.parquet中的单个HDFS文件(单个文件中的数据和元数据)而不是包含多个文件的文件夹中?

非常感谢帮助。

2 个答案:

答案 0 :(得分:1)

写入后使用coalesce(1)。它会解决你的问题

df.write.coalesce(1)

答案 1 :(得分:0)

这应该可以解决问题。

df.coalesce(1).write.parquet(parquet_file_path)
df.write.mode('append').parquet("/tmp/output/people.parquet")