我想知道,当我们将SparkSession与enableHiveSupport一起使用时,spark是否会在内存中维护Hive表中的整个数据,或者只是在触发hive查询后将数据集保存为ResultSet。
答案 0 :(得分:0)
这是Spark如何运作的问题。
首先,我建议您阅读this
关于将表存储在内存中,只有在您调用cache()
方法后才能看到here。
当您致电enableHiveSupport()
时,您正在访问表格的元数据。所有不是真实数据的信息。当您致电transofrmations时,您将只处理元数据以找到执行数据的最有效方式。当您调用actions时,这将从hive加载数据,加载内存所需的内容,并在您请求时将最终数据存储在内存中。
我真的建议你在Quick Start Guide
进行深入阅读