蜂巢中的Spark构建没有使用MySQL Metastore

时间:2017-07-19 15:21:44

标签: mysql apache-spark hive metastore spark-thriftserver

我正在使用Apache Spark 2.1.1,并且已将以下hive-site.xml放在$SPARK_HOME/conf文件夹中:

<?xml version="1.0"?>
<configuration>
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://mysql_server:3306/hive_metastore?createDatabaseIfNotExist=true</value>
  <description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
  <description>Driver class name for a JDBC metastore</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
  <description>username to use against metastore database</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>password</value>
  <description>password to use against metastore database</description>
</property>
<property>
  <name>hive.metastore.schema.verification</name>
  <value>false</value>
  <description>password to use against metastore database</description>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>${test.tmp.dir}/hadoop-tmp</value>
  <description>A base for other temporary directories.</description>
</property>
<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>hdfs://hadoop_namenode:9000/value_iq/hive_warehouse/</value>
  <description>Warehouse Location</description>
</property>
</configuration>

当我启动thrift服务器时,我的MySQL数据库上创建了Metastore模式但未使用,而是使用了Derby。

在thrift服务器日志文件中找不到任何错误,唯一引起我注意的是它首先尝试使用MySQL(INFO MetaStoreDirectSql: Using direct SQL, underlying DB is MYSQL)但是没有任何错误而是使用Derby({{1 }})。这是节俭服务器日志https://www.dropbox.com/s/rxfwgjm9bdccaju/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-s-master.value-iq.com.out?dl=0

我的系统上没有安装配置单元,我只是假装使用内置的Apache Spark配置单元。

我正在使用INFO MetaStoreDirectSql: Using direct SQL, underlying DB is DERBY,它位于mysql-connector-java-5.1.23-bin.jar文件夹中。

1 个答案:

答案 0 :(得分:4)

它出现在hive-site.xml中,您尚未设置要连接的Metastore服务。因此,spark将使用默认的一个,即带有derby DB后端的本地Metastore服务 我命令使用具有MySQL DB作为其后端的Metastore服务,您必须:

  1. 启动Metastore服务。您可以在此处查看如何启动服务hive metastore admin manual。使用相同的hive-site.xml启动使用MySQL DB后端的Metastore服务,然后添加以下行以在端口XXXX上的METASTORESERVER上启动Metastore服务:

    <property>
      <name>hive.metastore.uris</name>
      <value>thrift://METASTRESERVER:XXXX</value>
    </property>
    
  2. 让spark知道Metastore服务的起始位置。这可以使用您在启动Metastore服务时使用的相同hive-site.xml(添加上面的行)将此文件复制到Spark的配置路径中,然后重新启动spark thrift服务器