使用没有Hadoop / HDFS的hive Metastore服务

时间:2016-11-16 15:58:23

标签: hive apache-spark-sql metastore

我知道这个问题有点奇怪。我喜欢Hadoop& HDFS,但最近使用Hive Metastore处理SparkSQL。

我想使用SparkSQL作为垂直SQL引擎,在不使用ETL过程的RDB,Mongo,Elastic等不同数据源上运行OLAP查询。然后我在Metastore中将不同的模式注册为外部表,并使用相应的Hive存储处理程序。

此外,HDFS在我的工作中不用作数据源。然后,给定Map / R已经被Spark引擎取代。听起来我觉得Hadoop / HDFS没用,但是以Hive的安装为基础。我不想全部买。

我想知道如果我只启动没有Hadoop / HDFS的Hive Metastore服务来支持SparkSQL,会发生什么样的问题。我会把自己带入丛林吗?

1 个答案:

答案 0 :(得分:2)

您需要的是 "Hive Local Mode"(在页面中搜索“Hive,Map-Reduce和Local-Mode”)。

this也可以提供帮助。

仅在本地进行实验时才建议使用此配置。但在这种情况下,您只需要Metastore。

同样来自here;

  

Spark SQL使用Hive Metastore,即使我们不配置它也是如此。未配置时,它使用默认的Derby DB作为Metastore。

所以这似乎很合法;

  1. 在Hive中安排您的Metastore
  2. 以本地模式启动Hive
  3. 并使Spark使用Hive Metastore
  4. 将Spark用作Hive支持的所有数据源的SQL引擎。