请帮我看看使用Glue Data抓取工具的tar.gz文件吗?我有一个tar.gz文件,其中包含我S3中不同模式的几个文件,当我尝试运行爬虫时,我没有在数据目录中看到模式。我们应该使用任何自定义分类器吗? AWS Glue FAQ指定使用分类器支持gzip,但未在Glue Classifier部分中提供的分类器列表中列出。
由于
答案 0 :(得分:1)
根据分类器中内置的Glue Crawler官方AWS文档,此功能应该100%支持且透明。
https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html
使用gzip压缩的csv格式是内置的。
但是,如果AWS Support不按照您的描述工作,我建议您与其联系。
答案 1 :(得分:0)
您可以使用lambda解压缩文件,然后使用crawler
答案 2 :(得分:0)
您是否检查了搜寻器是否可以解析文件本身?只需创建一个与原始文件几行的示例文件,然后运行搜寻器以查看其是否可以推断出架构。如果不是,也许您将需要一个自定义分类器。特别适用于以空格分隔的文本文件。如果可以的话,您还可以在此处粘贴一些示例行。