Hive可以具有其元数据,并在那里存储表,列,分区信息。 如果我不想使用配置单元,是否可以创建与配置单元相同的spark元数据。 我想查询Hive(选择,从何处和何处)等Spark SQL(不使用数据框),我们可以这样做吗?如果可以,我们可以使用哪个关系数据库来存储元数据?
答案 0 :(得分:0)
我们可以创建与蜂巢相同的元数据吗
Spark为您执行此操作,您不必使用单独的Hive安装,甚至不必使用它的一部分(例如,Hive Metastore)。
无论使用哪种Apache Spark,Spark SQL都在内部使用Hive元存储库,其目的与Hive相同(但此元存储库现在是Spark SQL的一部分)。
如果可以,我们可以使用哪个关系数据库来存储元数据?
Hive支持的任何内容,例如Oracle,MySQL,PostgreSQL。该配置几乎与单独的Hive安装(通常在这种企业级安装中就是这种情况)一样。
您可能想阅读Hive Metastore。
答案 1 :(得分:-1)
Spark本质上是一个分布式计算系统,而不是分布式存储。因此,我们主要使用Spark进行计算,这需要来自不同存储的元数据。
但是,Spark内部提供了一个InMemoryCatalog来存储元数据(如果未使用Hive配置它)。
您可以查看this以获得更多信息。