我通过 python API 使用 spark v2.4.4
根据 spark documentation 我可以通过设置以下配置来强制 spark 下载所有 hive jar 以与我的 hive_metastore 交互
spark.sql.hive.metastore.version=${my_version}
spark.sql.hive.metastore.jars=maven
但是,当我运行以下python代码时,没有从maven下载jar文件。
from pyspark.sql import SparkSession
from pyspark import SparkConf
conf = (
SparkConf()
.setAppName("myapp")
.set("spark.sql.hive.metastore.version", "2.3.3")
.set("spark.sql.hive.metastore.jars","maven")
)
spark = (
SparkSession
.builder
.config(conf=conf)
.enableHiveSupport()
.getOrCreate()
)
log4j.logger.org.apache.spark.api.python.PythonGatewayServer=INFO
将 logLevel=INFO 配置为默认值。我看不到任何日志表明 spark 正在与 maven 交互。 according to this 我应该看到一个 INFO 级别的日志答案 0 :(得分:0)
对于试图解决此问题的其他人:
spark.catalog.listDatabases()