应用错误收集

在这种情况下，我将使用sparksql将镶木地板文件摄取到配置单元表中。我的问题是，实木复合地板文件中是否将包含其他字段，我如何将该文件与现有的配置单元表合并。

例如，

最初是Parquet文件架构具有五个字段，因此配置单元表具有五个字段。

F1 = BBBBBBBBACj

F2 = BBBBBBBBABF

F3 = BBBBBBBBACR

F4 = BBBBBBBBEjc

F5 = MAGICSCCCDD

几天后，模式发展了，新的额外字段（即第六个字段）如下所示，

F1 = BBBBBBBBACj

F2 = BBBBBBBBABF

F3 = BBBBBBBBACR

F4 = BBBBBBBBEjc

F5 = MAGICSVVCDD

F6 = TESTTTTTTTT

我们可以用新添加的字段容纳现有配置单元中的新字段吗？

我正在使用sparksql在蜂巢表中提取数据，以下是相同的代码。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
        .appName("AppName") \
        .getOrCreate()

dF = spark.read.load('/projects/prj_dir/app_dir/dataset1/')

dF.write.mode("append").partitionBy(F2).saveAsTable("Table_nm")

将具有新的附加属性的镶木地板文件摄取到现有的Hive表中

0 个答案: