Question

我是Hadoop / Spark / Hive的新手！

我创建了一个在本地运行的单节点linux（Ubuntu 18.04.1 LTS）VM，其内容如下： Hadoop 3.1.0； Spark：Spark 2.3.1，Hive：Hive-3.0.0

我的Hive使用的是标准Derby DB，我可以通过终端访问hive并创建数据库，表，然后查询这些表。我的metastore_db位于〜/ hivemetastore / metastore_db

我还创建了以下内容：

hadoop fs -mkdir -p / user / hive / warehouse

hadoop fs -mkdir -p / tmp / hive

（注意-我在$ HIVE_HOME / conf或$ SPARK_HOME / conf下没有任何hive-site.xml文件）

但是，当我尝试从pyspark（通过终端）读取配置单元表时，出现错误：

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/spark-2.3.1-bin-hadoop2.7/python/pyspark/sql/session.py", line 710, in sql return DataFrame(self._jsparkSession.sql(sqlQuery), self._wrapped)
File "/usr/local/spark-2.3.1-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
File "/usr/local/spark-2.3.1-bin-hadoop2.7/python/pyspark/sql/utils.py", line 69, in decoraise AnalysisException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.AnalysisException: 'java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;'

我用来从pyspark访问蜂巢的代码是：

from pyspark.sql import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
spark.sql('show databases').show()

Answer 1

您是否启动了元存储？

类型：

hive --service metastore

使用 rm metastore_db / *。lck 删除锁定，或重新启动系统（或PySpark Shell）。

无法通过PySpark访问Hive

1 个答案: