将SparkSession与enableHiveSupport一起使用时,内存中会产生火花

时间:2017-06-04 09:21:57

标签: apache-spark memory hive apache-spark-sql

我想知道,当我们将SparkSession与enableHiveSupport一起使用时,spark是否会在内存中维护Hive表中的整个数据,或者只是在触发hive查询后将数据集保存为ResultSet。

1 个答案:

答案 0 :(得分:0)

这是Spark如何运作的问题。

首先,我建议您阅读this

关于将表存储在内存中,只有在您调用cache()方法后才能看到here

当您致电enableHiveSupport()时,您正在访问表格的元数据。所有不是真实数据的信息。当您致电transofrmations时,您将只处理元数据以找到执行数据的最有效方式。当您调用actions时,这将从hive加载数据,加载内存所需的内容,并在您请求时将最终数据存储在内存中。

我真的建议你在Quick Start Guide

进行深入阅读