应用错误收集

覆盖和附加到镶木地板之间有什么区别

时间：2018-12-26 15:57:01

标签： apache-spark pyspark amazon-emr

在spark中添加和覆盖到镶木地板之间有什么区别？我正在处理10天的大量数据。目前，我正在使用“追加”方法将每日日志处理到镶木地板文件中，并根据日期对数据进行分区。但是我面临的问题是每日数据也非常庞大，并且要花费大量时间，这在使用EMR集群处理数据时也会导致CPU使用率过高。这使我的工作非常缓慢且昂贵。因此，我正在寻找一种方法，可以进一步拆分数据并将数据合并到日簇中。

1 个答案:

答案 0 :(得分：0)

请参阅spark SaveMode文档 https://spark.apache.org/docs/latest/api/java/index.html

在Python中，“。append（）”和“+ = []”之间有什么区别？
.empty（）。append（）和.html（）之间有什么区别？
$ .append（）和$ .append（document.createTextNode（））之间的区别
在Python中，Method OverWrite和OverRide有什么区别？
Parquet：元数据和common_metadata之间的区别
镶木地板图案和镶木地板使用avro架构之间的区别
python中“ append”和“ +”之间有什么区别？
Spark模式镶木地板和Hive模式镶木地板之间的主要区别是什么？
覆盖和附加到镶木地板之间有什么区别
Apache镶木地板和箭之间的区别

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？