我们正在使用aws glue etl jobs将s3 Json或CSV转换为镶木地板格式,并将结果保存在nnew s3中。 这项工作定期运行。 我们正面临一个问题,例如,如果我们每次运行时都有10个jjson文件,那么就会创建新的10个月份文件,因此它变为10 20 30 40 ....依此类推,我们只想查看10个文件。 我们有什么方法可以覆盖现有的镶木地板文件。我们只使用胶水生成的Python脚本。 我们可以只转换更新的文件,还是可以过期所有文件?
答案 0 :(得分:1)
df.write.mode(' overwrite')。如果你想用python覆盖一个镶木地板文件,可以使用它(" / output / folder / path")。