aws-glue - 如果AWS搜寻器的大小> 1MB，则无法对S3中的文件类型存储进行分类 - Thinbug

如果AWS搜寻器的大小> 1MB，则无法对S3中的文件类型存储进行分类

时间：2018-06-20 17:53:37

标签： aws-glue

当iam尝试使用大小> = 1MB的输入Json文件的Crawler来检测文件类型时它在胶水中创建一个表，其分类类型为“未知”。但是，当大小为<1MB时，它将文件类型成功分类为JSON。

我对文件进行了交叉检查，以确保其有效的json文件。

这对AWS爬虫来说是一个限制。

如果是这样，此问题还有其他选择。

1 个答案:

答案 0 :(得分：1)

是的，这是由爬网程序设计的，如果元数据（内部爬网程序创建的）超过1mb，则会出现上述错误，对于大于1mb的文件，Crawler会对1mb进行爬网；如果文件大于1mb，则对整个文件进行爬网大小小于1Mb。如果元数据本身不适合1Mb，则文件将以Unkowntype结尾。