应用错误收集

时间：2018-12-17 22:46:22

标签： apache-spark apache-spark-sql

Hive可以具有其元数据，并在那里存储表，列，分区信息。如果我不想使用配置单元，是否可以创建与配置单元相同的spark元数据。我想查询Hive（选择，从何处和何处）等Spark SQL（不使用数据框），我们可以这样做吗？如果可以，我们可以使用哪个关系数据库来存储元数据？

答案 0 :(得分：0)

我们可以创建与蜂巢相同的元数据吗

Spark为您执行此操作，您不必使用单独的Hive安装，甚至不必使用它的一部分（例如，Hive Metastore）。

无论使用哪种Apache Spark，Spark SQL都在内部使用Hive元存储库，其目的与Hive相同（但此元存储库现在是Spark SQL的一部分）。

如果可以，我们可以使用哪个关系数据库来存储元数据？

Hive支持的任何内容，例如Oracle，MySQL，PostgreSQL。该配置几乎与单独的Hive安装（通常在这种企业级安装中就是这种情况）一样。

您可能想阅读Hive Metastore。

答案 1 :(得分：-1)

Spark本质上是一个分布式计算系统，而不是分布式存储。因此，我们主要使用Spark进行计算，这需要来自不同存储的元数据。

但是，Spark内部提供了一个InMemoryCatalog来存储元数据（如果未使用Hive配置它）。

您可以查看this以获得更多信息。