如何使用rdd.saveAsPickleFile(output_path)自动覆盖output_path中的文件?

时间:2018-04-10 12:30:04

标签: apache-spark pyspark rdd pickle overwrite

如果目录已存在,则通过rdd.saveAsPickleFile(output_path)写入文件将失败。虽然这是避免意外删除文件的好事,但我想知道是否有明确覆盖文件夹/文件的选项?与数据帧类似:

  

df.write.mode( '覆盖')。格式( 'JSON')。保存(output_path)

注意:以下两个问题herehere之前已经问过此问题,但没有收到明确答案。

1 个答案:

答案 0 :(得分:0)

如果您希望每次运行脚本时都明确删除创建pickle文件的文件夹。在调用

之前,您可以按https://stackoverflow.com/a/10840586/5671433中的说明删除output_path处的目录
df.write.mode('overwrite').format('json').save(output_path)