每当我尝试运行一些非常简单的作业(将s3上的json导入Redshift)时,我会收到以下错误:
pyspark.sql.utils.AnalysisException:u'路径不存在: S3://我-TEMP-胶-DIR / f316d46f-eaf3-497a-927b-47ff04462e4a;'
这不是权限问题,因为我有一些其他(带有连接的更复杂的作业)可靠地工作。真的不确定问题是什么 - 任何帮助都会受到赞赏。
我使用的是2 DPU,但尝试过5.我也尝试过使用不同的临时目录。此外,有数百个文件,有些文件非常小(几行),但我不确定这是否相关。
答案 0 :(得分:1)
我认为这个错误的原因只是我试图同时加载的文件数量(并且错误本身具有误导性)。禁用书签并使用数据子集后,事情按预期工作。