我正在将大量数据(2.3TB)读入spark数据帧。 为预测模型准备的所有CSV文件。
加载后,我们将使用临时视图进行存储
dSales = spark.read.option("delimiter",",").option("header", "true").option("inferSchema", "true").csv("/mnt/" + sourceMountName + "/")
dSales.createOrReplaceTempView("dSales")
此后,我们生成带有联接的其他几个表,并将它们全部写入数据库。这些表在PowerBI中使用。
我的问题是,处理完所有内容后,如何才能从内存中取出大的Sales数据框和Tempview?