Question

我的数据框如下：

+-------+------+----+----+
|      a|     b|c   |d   |
+-------+-----------+----+
|    101|   244|   4|   1|
|    101|   245|   5|   0|
|    135|   396|   2|   1|
|    140|   247|   2|   1|
|    140|   313|   3|   0|
|    140|   380|   4|   0|
|    140|   558|   5|   0|
|    140|   902|   1|   1|
|    141|   240|   4|   0|
|    141|   275|   2|   1|
|    141|   387|   3|   0|
|    141|   388|   1|   1|
|    141|   528|   5|   0|
+------------+-----------+

如何将以上数据框保存为带字段分隔符的文本文件格式为|在保存输出文件之后，应该是part-00000，part-00001 e.t.c

Answer 1

如果要保持数据分隔，我会使用csv输出格式。例如，您可以这样做：

df = ...  # However you are building your df currently
df.write.format('csv').options("delimiter", "|").save(some_path)

some_path 是您的输出目的地。

在pyspark中将数据框保存为文本文件格式？

1 个答案: