将具有新的附加属性的镶木地板文件摄取到现有的Hive表中

时间:2019-01-22 20:29:16

标签: hadoop hive pyspark apache-spark-sql parquet

在这种情况下,我将使用sparksql将镶木地板文件摄取到配置单元表中。我的问题是,实木复合地板文件中是否将包含其他字段,我如何将该文件与现有的配置单元表合并。

例如,

  1. 最初是Parquet文件架构具有五个字段,因此配置单元表具有五个字段。
  

F1 = BBBBBBBBACj

     

F2 = BBBBBBBBABF

     

F3 = BBBBBBBBACR

     

F4 = BBBBBBBBEjc

     

F5 = MAGICSCCCDD

  1. 几天后,模式发展了,新的额外字段(即第六个字段)如下所示,
  

F1 = BBBBBBBBACj

     

F2 = BBBBBBBBABF

     

F3 = BBBBBBBBACR

     

F4 = BBBBBBBBEjc

     

F5 = MAGICSVVCDD

     

F6 = TESTTTTTTTT

我们可以用新添加的字段容纳现有配置单元中的新字段吗?

我正在使用sparksql在蜂巢表中提取数据,以下是相同的代码。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
        .appName("AppName") \
        .getOrCreate()

dF = spark.read.load('/projects/prj_dir/app_dir/dataset1/')

dF.write.mode("append").partitionBy(F2).saveAsTable("Table_nm")

0 个答案:

没有答案