AWS Glue搜寻器:用于输入数据的不同架构

时间:2020-01-23 12:38:12

标签: python amazon-web-services amazon-s3 aws-glue aws-glue-data-catalog

我在S3存储桶中有一个子文件夹,用于存储CSV文件。这些CSV文件都包含来自一个特定数据源的数据。数据源每月提供一个新的CSV文件。我有大约4年的数据。

在某个时候(大约2年前),数据源决定更改数据格式。 CSV的架构已更改(某些列已删除)。数据还是差不多,我想要的一切都还在那里。

我想使用搜寻器来注册两个模式,最好在同一张表中。理想情况下,我希望它能够识别模式的两个版本。

我应该怎么做?

我尝试过的

  • 我上载了子文件夹中的所有文件,并在启用了“为每个S3路径创建单个架构”的情况下运行搜寻器。

结果:我得到了一个合并了两种模式的表:一种大模式,具有来自两种格式的所有列

  • 我上载了子文件夹中的所有文件,并在禁用了“为每个S3路径创建单个架构”的情况下运行了搜寻器。

结果:我有两个具有两种不同模式的表

为什么我需要这个

两个不同的架构需要进行不同的处理。我正在编写一个Python Shell作业来处理文件。我的想法是使用目录拉取架构的两个不同版本,并根据文件的架构为每个文件触发不同的处理方式。

0 个答案:

没有答案