覆盖和附加到镶木地板之间有什么区别

时间:2018-12-26 15:57:01

标签: apache-spark pyspark amazon-emr

在spark中添加和覆盖到镶木地板之间有什么区别? 我正在处理10天的大量数据。目前,我正在使用“追加”方法将每日日志处理到镶木地板文件中,并根据日期对数据进行分区。但是我面临的问题是每日数据也非常庞大,并且要花费大量时间,这在使用EMR集群处理数据时也会导致CPU使用率过高。这使我的工作非常缓慢且昂贵。因此,我正在寻找一种方法,可以进一步拆分数据并将数据合并到日簇中。

1 个答案:

答案 0 :(得分:0)