应用错误收集

我有一个火花ETL作业，如果不存在该表，则会创建一个Glue表，并每天添加一个新分区（partitionedBy日期）。数据也连同数据的列标题一起进入我们的存储。列超过700，我们将整个数据集写入Glue。数据的架构可以随时更改，我们也可以获得相应的列标题文件。我们将不知道将新列添加到哪个位置以及将添加或删除多少个新列。 spark的saveAsTable函数负责将数据添加到正确的位置，因为它基于字段添加数据。但是，由于使用其他字段更改了架构，因此不会将新数据添加到表中。我该如何解决？我想验证当前的表标题，与新的标题进行比较，然后将当天数据集的其他字段添加到表中并加载分区。任何帮助表示赞赏。

AWS-Glue表-动态添加新列

0 个答案: