Pyspark:覆盖镶木地板文件失败,因为火花sumbit工作

时间:2017-10-27 02:26:41

标签: hadoop apache-spark pyspark hdfs

我使用 spark-submit 来运行我的pyspark代码,并希望覆盖HDFS中的现有文件。但是,它一直失败,错误信息是

  

17/10/27 10:18:07 java.io.FileNotFoundException:文件不存在:   HDFS://path_to_my_file.parquet/part-00116-acbec1f9-7293-41b4-98f7-1c45167b9941.snappy.parquet

我的代码

df.write.format("parquet").mode("overwrite").save("hdfs://path_to_my_file.parquet")

但是,我很确定该文件在覆盖函数之前确实存在,当我在控制台中传递相同的代码时,它工作正常!真的不明白它,我该如何解决这个问题。

我正在使用Spark 2.1和Python 2.7

0 个答案:

没有答案