如果AWS搜寻器的大小> 1MB,则无法对S3中的文件类型存储进行分类

时间:2018-06-20 17:53:37

标签: aws-glue

当iam尝试使用大小> = 1MB的输入Json文件的Crawler来检测文件类型时 它在胶水中创建一个表,其分类类型为“未知”。 但是,当大小为<1MB时,它将文件类型成功分类为JSON。

我对文件进行了交叉检查,以确保其有效的json文件。

这对AWS爬虫来说是一个限制。

如果是这样,此问题还有其他选择。

1 个答案:

答案 0 :(得分:1)

是的,这是由爬网程序设计的,如果元数据(内部爬网程序创建的)超过1mb,则会出现上述错误,对于大于1mb的文件,Crawler会对1mb进行爬网;如果文件大于1mb,则对整个文件进行爬网大小小于1Mb。如果元数据本身不适合1Mb,则文件将以Unkowntype结尾。