分区文本文件的Spark附加模式失败,SaveMode.Append - IOException File已存在

时间:2016-07-06 07:52:59

标签: apache-spark spark-dataframe

编写分区文本文件时很简单。

cursors = mongo_collection.parallel_scan(6)

if __name__ == '__main__':
    processes = [multiprocessing.Process(target=process_cursor, args=(cursor,)) for cursor in cursors]

例外 -

dataDF.write.partitionBy("year", "month", "date").mode(SaveMode.Append).text("s3://data/test2/events/")

1 个答案:

答案 0 :(得分:7)

经过大量浪费的工时后,用解决方案回答了我的问题,这些解决方案对我有用,还有其他麻烦事件。

TLDR; 将spark.speculation设置为false,如下所示:

conf = new SparkConf().set(“spark.speculation“,”false”)

更多详情herehere