如何将Spark-Notebook连接到Hive Metastore?

时间:2015-10-21 16:24:03

标签: hive apache-spark-sql cloudera-cdh spark-notebook apache-spark-1.2

这是一个由CDH 5.3.2提供的Hadoop 2.5.0,Spark 1.2.0,Scala 2.10的集群。我使用了compiled spark-notebook distro

默认情况下,Spark-Notebook似乎无法找到Hive Metastore。

如何为spark-notebook指定hive-site.xml的位置,以便它可以加载Hive Metastore?

以下是我的尝试:

  1. 将/ etc / hive / conf中包含hive-site.xml的所有文件链接到当前目录

  2. 在bash中指定SPARK_CONF_DIR变量

2 个答案:

答案 0 :(得分:1)

启动笔记本时,使用您找到hive-site.xml的路径设置环境变量EXTRA_CLASSPATH, 这对我有用:EXTRA_CLASSPATH=/path_of_my_mysql_connector/mysql-connector-java.jar:/my_hive_site.xml_directory/conf ./bin/spark-notebook 我也传递了我的mysqlconnector的jar,因为我有Hive和MySql。

我从此链接中找到了一些信息:https://github.com/andypetrella/spark-notebook/issues/351

答案 1 :(得分:0)

使用CDH 5.5.0快速入门VM,解决方案如下:您需要向笔记本提供参考hive-site.xml,该笔记本提供对hive Metastore的访问信息。默认情况下,spark-notebooks使用内部Metastore。

您可以在~/.bash_profile中定义以下环境变量:

HADOOP_CONF_DIR=$HADOOP_CONF_DIR:/etc/hive/conf.cloudera.hive/
export HADOOP_CON_DIR

(如果您没有在终端上打开新终端,请务必执行source ~/.bash_profile

(解决方案在这里给出:https://github.com/andypetrella/spark-notebook/issues/351