我有几个Spark作业,可将数据写入S3或从S3读取数据。偶尔(大约每周一次,大约3个小时),Spark作业将失败,但以下情况除外:
org.apache.spark.sql.AnalysisException: Path does not exist.
我发现这很可能是由于S3中的一致性模型所致,其中列表操作最终是一致的。 S3 Guard声称可以解决此问题,但是我处于不支持该实用程序的Spark环境中。
是否还有其他人遇到此问题并找到了合理的解决方法?
答案 0 :(得分:1)
否则,不要将S3用作直接的工作目的地。