你能指导我在本地机器上升级我的火花版本吗?我想在hadoop 2.7和hive 1.2.1(mysql中的Metastore)上运行。
我使用的是旧的Spark版本1.5,并希望升级到更新的2.0版本。我已经下载了二进制文件' spark-2.0.0-bin-hadoop2.7.tgz'和焦油。
我添加了spark-env - HADOOP_HOME
,HADOOP_CONF_DIR
。 SPARK_CLASSPATH
指向mysql-connector
jar文件。在spark-default中添加了spark.sql.warehouse.dir
,spark.sql.hive.metastore.version
和spark.sql.hive.metastore.jars
。
我修改了.bashrc
文件。当我开始蜂巢时,我得到以下信息:
cannot access /opt/spark-2.0.0-bin-hadoop2.7/lib/spark-assembly-*.jar:
No such file or directory
我的二进制版本没有构建火花。但是,我的旧版本有spark-assembly jar文件但在spark2.0 jar目录中可能不一样。我需要这个jar文件吗?
我已将`hive-site.xml复制到conf目录。 此外,在pyspark中运行sql查询会引发以下错误:
Database at /home/revathy/metastore_db has an incompatible
format with the current version of the software. The database
was created by or upgraded by version 10.11.
我的Metastore版本是1.2.1(并在spark-default中指定)
无法找到有关连接spark 2.0的hive Metastore的详细信息 有人可以帮忙吗从pyspark,我能够读取hadoop中的文件,Hive工作正常(在cli中检查)。
请提供有关在spark上配置hive Metastore(mysql)的链接/详细信息。
答案 0 :(得分:1)
转到
$HIVE_HOME/bin/hive
评论以下几行
# add Spark assembly jar to the classpath
#if [[ -n "$SPARK_HOME" ]]
#then
# sparkAssemblyPath=`ls ${SPARK_HOME}/lib/spark-assembly-*.jar`
# CLASSPATH="${CLASSPATH}:${sparkAssemblyPath}"
#fi
就是你完成了。
答案 1 :(得分:0)