应用错误收集

将SparkSession与enableHiveSupport一起使用时，内存中会产生火花

时间：2017-06-04 09:21:57

标签： apache-spark memory hive apache-spark-sql

我想知道，当我们将SparkSession与enableHiveSupport一起使用时，spark是否会在内存中维护Hive表中的整个数据，或者只是在触发hive查询后将数据集保存为ResultSet。

1 个答案:

答案 0 :(得分：0)

这是Spark如何运作的问题。

首先，我建议您阅读this

关于将表存储在内存中，只有在您调用cache()方法后才能看到here。

当您致电enableHiveSupport()时，您正在访问表格的元数据。所有不是真实数据的信息。当您致电transofrmations时，您将只处理元数据以找到执行数据的最有效方式。当您调用actions时，这将从hive加载数据，加载内存所需的内容，并在您请求时将最终数据存储在内存中。

我真的建议你在Quick Start Guide

进行深入阅读