在pyspark中将数据框保存为文本文件格式?

时间:2018-05-15 17:49:36

标签: apache-spark pyspark apache-spark-sql pyspark-sql

我的数据框如下:

+-------+------+----+----+
|      a|     b|c   |d   |
+-------+-----------+----+
|    101|   244|   4|   1|
|    101|   245|   5|   0|
|    135|   396|   2|   1|
|    140|   247|   2|   1|
|    140|   313|   3|   0|
|    140|   380|   4|   0|
|    140|   558|   5|   0|
|    140|   902|   1|   1|
|    141|   240|   4|   0|
|    141|   275|   2|   1|
|    141|   387|   3|   0|
|    141|   388|   1|   1|
|    141|   528|   5|   0|
+------------+-----------+

如何将以上数据框保存为带字段分隔符的文本文件格式为|在保存输出文件之后,应该是part-00000,part-00001 e.t.c

1 个答案:

答案 0 :(得分:1)

如果要保持数据分隔,我会使用csv输出格式。例如,您可以这样做:

df = ...  # However you are building your df currently
df.write.format('csv').options("delimiter", "|").save(some_path)

some_path 是您的输出目的地。