我正面临着pyspark2.2 csv writer输出的问题

时间:2018-06-02 14:58:21

标签: python pyspark apache-spark-2.2

我想将我的pyspark代码从1.6迁移到2.x.在1.6我使用语法

input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .format(file_format) \
    .option("header", "true") \
    .save(nfs_path)

并以下面的格式获得输出。

部分-00000

部分-00001

我在pyspark2.2中运行了相同的代码,它给了我不同的部分文件名

部分00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

部分00001-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

然后我根据2.x

更改代码
input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .option("header", "true") \
    .csv(nfs_path)

但结果仍然相同

部分00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

任何人都可以帮忙解决这个问题的原因吗?

0 个答案:

没有答案