Question

如果目录已存在，则通过rdd.saveAsPickleFile（output_path）写入文件将失败。虽然这是避免意外删除文件的好事，但我想知道是否有明确覆盖文件夹/文件的选项？与数据帧类似：

df.write.mode（ '覆盖'）。格式（ 'JSON'）。保存（output_path）

注意：以下两个问题here和here之前已经问过此问题，但没有收到明确答案。

Answer 1

如果您希望每次运行脚本时都明确删除创建pickle文件的文件夹。在调用

之前，您可以按https://stackoverflow.com/a/10840586/5671433中的说明删除output_path处的目录

df.write.mode('overwrite').format('json').save(output_path)