AWS-Glue表-动态添加新列

时间:2019-12-19 04:48:01

标签: hadoop hive apache-spark-sql bigdata aws-glue

我有一个火花ETL作业,如果不存在该表,则会创建一个Glue表,并每天添加一个新分区(partitionedBy日期)。数据也连同数据的列标题一起进入我们的存储。列超过700,我们将整个数据集写入Glue。  数据的架构可以随时更改,我们也可以获得相应的列标题文件。我们将不知道将新列添加到哪个位置以及将添加或删除多少个新列。 spark的saveAsTable函数负责将数据添加到正确的位置,因为它基于字段添加数据。但是,由于使用其他字段更改了架构,因此不会将新数据添加到表中。我该如何解决? 我想验证当前的表标题,与新的标题进行比较,然后将当天数据集的其他字段添加到表中并加载分区。任何帮助表示赞赏。

0 个答案:

没有答案