无法将表格保存到配置单元metastore HDP 3.0

时间:2018-11-15 16:33:01

标签: apache-spark hive hive-metastore apache-spark-2.3

我无法再使用metastore将表保存到配置单元数据库。我使用spark.sql在spark中看到了表,但是在蜂巢数据库中看不到相同的表。我试过了,但它没有将表格存储为配置单元。如何配置配置单元metastore? Spark版本是2.3.1。

如果您需要更多详细信息,请发表评论。

%spark
import org.apache.spark.sql.SparkSession
val spark = (SparkSession
        .builder
        .appName("interfacing spark sql to hive metastore without configuration file")
        .config("hive.metastore.uris", "thrift://xxxxxx.xxx:9083") // replace with your hivemetastore service's thrift url
        .enableHiveSupport() // don't forget to enable hive support
        .getOrCreate())

spark.conf.get("spark.sql.warehouse.dir")// Output: res2: String = /apps/spark/warehouse
spark.conf.get("hive.metastore.warehouse.dir")// NotSuchElement Exception
spark.conf.get("spark.hadoop.hive.metastore.uris")// NotSuchElement Exception

var df = (spark
        .read
        .format("parquet")
        .load(dataPath)

df.createOrReplaceTempView("my_temp_table");
spark.sql("drop table if exists my_table");
spark.sql("create table my_table using hive as select * from my_temp_table");
spark.sql("show tables").show(false)// I see my_table in default database

在@catpaws答案之后更新:HDP 3.0及更高版本,Hive和Spark使用独立的目录

将表格保存到Spark目录:

df.createOrReplaceTempView("my_temp_table");
spark.sql("create table my_table as select * from my_temp_table");

VS

将表保存到配置单元目录:

val hive = com.hortonworks.spark.sql.hive.llap.HiveWarehouseBuilder.session(spark).build()

hive.createTable("newTable")
  .ifNotExists()
  .column("ws_sold_time_sk", "bigint")
  ...// x 200 columns
  .column("ws_ship_date_sk", "bigint")
  .create()

df.write.format(HIVE_WAREHOUSE_CONNECTOR)
  .option("table", "newTable")
  .save()

如您所见,Hive Warehouse Connector对于具有一百列的数据框是非常不切实际的。有什么方法可以将大型数据帧保存到Hive?

2 个答案:

答案 0 :(得分:1)

来自Converting to Boolean: 在HDP 3.0及更高版本中,Spark和Hive使用独立的目录来访问相同或不同平台上的SparkSQL或Hive表。 Spark创建的表位于Spark目录中。 Hive创建的表位于Hive目录中。数据库属于目录名称空间,类似于表如何属于数据库名称空间。这些表虽然是独立的,但可以互操作,并且可以在Hive目录中看到Spark表,但仅在使用Hive Warehouse Connector时可以看到。

使用HWC API的Hortonworks docs将数据帧写入Hive。

更新:您现在可以(通过使用HDP 3.1)创建一个DataFrame,并且如果表示该DataFrame的Hive表不存在,则Hive Warehouse Connector会创建它,如Write operations所示:

df = //Create DataFrame from any source

val hive = com.hortonworks.spark.sql.hive.llap.HiveWarehouseBuilder.session(spark).build()

df.write.format(HIVE_WAREHOUSE_CONNECTOR)
.option("table", "my_Table")
.save()

答案 1 :(得分:0)

正如@catpaws所说,Spark和Hive使用独立的目录。要使用Hive Warehouse Connector保存具有多列的数据框,可以使用我的功能:

save_table_hwc(df1, "default", "table_test1")

def save_table_hwc(df: DataFrame, database: String, tableName: String) : Unit = {
    hive.setDatabase(database)
    hive.dropTable(tableName, true, false)
    hive.createTable(tableName)
    var table_builder = hive.createTable(tableName)
    for( i <- 0 to df.schema.length-1){
        var name = df.schema.toList(i).name.replaceAll("[^\\p{L}\\p{Nd}]+", "")
        var data_type = df.schema.toList(i).dataType.sql
        table_builder = table_builder.column(name, data_type)
    }
    table_builder.create()
    df.write.format(HIVE_WAREHOUSE_CONNECTOR).option("table", tableName).save()
}