如果目录已存在,则通过rdd.saveAsPickleFile(output_path)写入文件将失败。虽然这是避免意外删除文件的好事,但我想知道是否有明确覆盖文件夹/文件的选项?与数据帧类似:
df.write.mode( '覆盖')。格式( 'JSON')。保存(output_path)
答案 0 :(得分:0)
如果您希望每次运行脚本时都明确删除创建pickle文件的文件夹。在调用
之前,您可以按https://stackoverflow.com/a/10840586/5671433中的说明删除output_path
处的目录
df.write.mode('overwrite').format('json').save(output_path)