Question

如何在运行时设置hive属性：hive.metastore.warehouse.dir？或者至少是一种更动态的方式设置上面的属性，而不是像spark_home/conf/hive-site.xml

这样的文件

Answer 1

我遇到了同样的问题，对我来说，它可以通过设置Spark（2.4.0）中的Hive属性来工作。请在下面通过spark-shell，spark-submit和SparkConf找到所有选项。

选项1（火花壳）

spark-shell --conf spark.hadoop.hive.metastore.warehouse.dir=some_path\metastore_db_2

最初，我尝试将hive.metastore.warehouse.dir设置为some_path\metastore_db_2的spark-shell。然后我得到下一个警告：

警告：忽略非火花配置属性： hive.metastore.warehouse.dir = C：\ winutils \ hadoop-2.7.1 \ bin \ metastore_db_2

尽管我用以下方法创建Hive表：

bigDf.write.mode("overwrite").saveAsTable("big_table")

Hive元数据已正确存储在metastore_db_2文件夹下。

当我使用spark.hadoop.hive.metastore.warehouse.dir时，警告消失，结果仍保存在metastore_db_2目录中。

选项2（火花提交）

为了在提交带有火花提交的作业时使用hive.metastore.warehouse.dir，我遵循了以下步骤。

首先，我写了一些代码来用Hive保存一些随机数据：

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

val sparkConf = new SparkConf().setAppName("metastore_test").setMaster("local")
val spark = SparkSession.builder().config(sparkConf).getOrCreate()

import spark.implicits._
var dfA = spark.createDataset(Seq(
      (1, "val1", "p1"),
      (2, "val1", "p2"),
      (3, "val2", "p3"),
      (3, "val3", "p4"))).toDF("id", "value", "p")

dfA.write.mode("overwrite").saveAsTable("metastore_test")

spark.sql("select * from metastore_test").show(false)

接下来，我将工作提交给：

spark-submit --class org.tests.Main \
        --conf spark.hadoop.hive.metastore.warehouse.dir=C:\winutils\hadoop-2.7.1\bin\metastore_db_2 
        spark-scala-test_2.11-0.1.jar

已在C:\winutils\hadoop-2.7.1\bin\metastore_db_2文件夹下正确创建了metastore_test表。

选项3（SparkConf）

通过Spark代码中的SparkSession。

val sparkConf = new SparkConf()
      .setAppName("metastore_test")
      .set("spark.hadoop.hive.metastore.warehouse.dir", "C:\\winutils\\hadoop-2.7.1\\bin\\metastore_db_2")
      .setMaster("local")

此尝试也成功。

仍然存在的问题是，为什么我必须使用spark.hadoop扩展该属性才能正常工作？

如何在运行时在spark-shell中添加hive属性

1 个答案: