Question

编写分区文本文件时很简单。

cursors = mongo_collection.parallel_scan(6)

if __name__ == '__main__':
    processes = [multiprocessing.Process(target=process_cursor, args=(cursor,)) for cursor in cursors]

例外 -

dataDF.write.partitionBy("year", "month", "date").mode(SaveMode.Append).text("s3://data/test2/events/")

Answer 1

经过大量浪费的工时后，用解决方案回答了我的问题，这些解决方案对我有用，还有其他麻烦事件。

TLDR; 将spark.speculation设置为false，如下所示：

conf = new SparkConf().set(“spark.speculation“,”false”)

更多详情here和here。

分区文本文件的Spark附加模式失败，SaveMode.Append - IOException File已存在

1 个答案: