我在S3存储桶中有一个子文件夹,用于存储CSV文件。这些CSV文件都包含来自一个特定数据源的数据。数据源每月提供一个新的CSV文件。我有大约4年的数据。
在某个时候(大约2年前),数据源决定更改数据格式。 CSV的架构已更改(某些列已删除)。数据还是差不多,我想要的一切都还在那里。
我想使用搜寻器来注册两个模式,最好在同一张表中。理想情况下,我希望它能够识别模式的两个版本。
我应该怎么做?
结果:我得到了一个合并了两种模式的表:一种大模式,具有来自两种格式的所有列
结果:我有两个具有两种不同模式的表
两个不同的架构需要进行不同的处理。我正在编写一个Python Shell作业来处理文件。我的想法是使用目录拉取架构的两个不同版本,并根据文件的架构为每个文件触发不同的处理方式。