应用错误收集

我正在将大量数据（2.3TB）读入spark数据帧。为预测模型准备的所有CSV文件。

加载后，我们将使用临时视图进行存储

dSales = spark.read.option("delimiter",",").option("header", "true").option("inferSchema", "true").csv("/mnt/" + sourceMountName + "/")
dSales.createOrReplaceTempView("dSales")

此后，我们生成带有联接的其他几个表，并将它们全部写入数据库。这些表在PowerBI中使用。

我的问题是，处理完所有内容后，如何才能从内存中取出大的Sales数据框和Tempview？

saveAsTable是否会使内存增加一倍？

0 个答案: