标签: apache-spark pyspark amazon-emr
在spark中添加和覆盖到镶木地板之间有什么区别? 我正在处理10天的大量数据。目前,我正在使用“追加”方法将每日日志处理到镶木地板文件中,并根据日期对数据进行分区。但是我面临的问题是每日数据也非常庞大,并且要花费大量时间,这在使用EMR集群处理数据时也会导致CPU使用率过高。这使我的工作非常缓慢且昂贵。因此,我正在寻找一种方法,可以进一步拆分数据并将数据合并到日簇中。
答案 0 :(得分:0)
请参阅spark SaveMode文档 https://spark.apache.org/docs/latest/api/java/index.html