使用Glue Data爬虫处理压缩的gz文件以创建表模式

时间:2018-02-16 06:57:36

标签: amazon-web-services aws-glue

我在S3存储桶中有一个压缩的gzip文件。这些文件将由客户端每天上传到S3存储桶。未压缩时的gzip将包含CSV格式的10个文件,但仅具有相同的模式。我的目标是处理gzip文件,使用数据爬虫创建表模式,然后将所有数据作为镶木地板文件加载/合并到新的单个表中。

Glue抓取工具是否可以读取gz文件并根据文件列表创建创建表。请帮助解决方案。

感谢。

1 个答案:

答案 0 :(得分:0)