AWS Glue搜寻器无法识别历史文件上的一致CSV模式

时间:2019-09-06 22:57:45

标签: aws-glue

我们有一个.csv和.ctl文件的文件夹。 CSV是每天的文件,一段时间内每天总共五个。它们的命名约定是带前缀的字符串,后跟日期标识符(例如:ABCDE090619.csv)。五个日常文件中的每个文件的标题行都随时间变化。

Glue搜寻器的预期行为是识别五个表模式,并在每个表中为当天的数据创建一行。相反,搜寻器会为每个文件创建一个单独的架构。总共约有550个。

是否有任何机制可以推动这种行为?目前,我们的考虑因素包括命名约定,但根据Glue文档,只有文件模式才有意义。

谢谢。

1 个答案:

答案 0 :(得分:0)

为您的搜寻器使用“为每个S3路径创建单个架构”选项可能会对您有所帮助。在控制台中,它位于搜寻器配置的“输出”部分中的“ S3数据的分组行为”下。

更新:使用上述选项时,必须将具有不同架构的文件分隔到不同的文件夹中。您可以将搜寻器指向根文件夹,但文件夹结构会告诉它要将哪些文件分组在一起。