如何在pyspark中将数据帧保存为文本文件GZ格式?((但不是以csv格式)

时间:2018-05-15 13:13:36

标签: apache-spark pyspark apache-spark-sql pyspark-sql

我有如下数据框

+-------+------+----+----+
|      a|     b|c   |d   |
+-------+-----------+----+
|    101|   244|   4|   1|
|    101|   245|   5|   0|
|    101|   313|   2|   0|
|    101|   380|   3|   0|
|    101|   902|   1|   1|
|    135|   303|   4|   0|
|    135|   381|   3|   1|
|    135|   386|   5|   1|
|    135|   393|   1|   1|
|    135|   396|   2|   1|
|    140|   247|   2|   1|
|    140|   313|   3|   0|
|    140|   380|   4|   0|
|    140|   558|   5|   0|
|    140|   902|   1|   1|
|    141|   240|   4|   0|
|    141|   275|   2|   1|
|    141|   387|   3|   0|
|    141|   388|   1|   1|
|    141|   528|   5|   0|
+------------+-----------+

如何将以上数据框保存为带有字段分隔符的GZ文本文件格式为|,并在保存输出文件后应为part-00000.gz,part-00001.gz e.t.c

0 个答案:

没有答案