当iam尝试使用大小> = 1MB的输入Json文件的Crawler来检测文件类型时 它在胶水中创建一个表,其分类类型为“未知”。 但是,当大小为<1MB时,它将文件类型成功分类为JSON。
我对文件进行了交叉检查,以确保其有效的json文件。
这对AWS爬虫来说是一个限制。
如果是这样,此问题还有其他选择。
答案 0 :(得分:1)
是的,这是由爬网程序设计的,如果元数据(内部爬网程序创建的)超过1mb,则会出现上述错误,对于大于1mb的文件,Crawler会对1mb进行爬网;如果文件大于1mb,则对整个文件进行爬网大小小于1Mb。如果元数据本身不适合1Mb,则文件将以Unkowntype结尾。