应用错误收集

在一个用例中，我们试图推断AWS S3中的Json / Avro / Xml文件的模式。在上述情况下，我们尝试使用胶水数据目录，但对于大于1 MB的文件，它将失败它甚至无法识别文件类型。我们正在尝试在Lambda函数中获取元数据，并且目前已经以Json作为文件格式。

有没有解决的办法？也许是某些本地S3方式（首选），或者是一些开源工具可以通过S3在Java / Python中做到这一点？

如果AWS胶水无法分析基础元数据，那么AWS Athena如何在海量数据之上运行呢？据我了解，雅典娜在内部使用胶水数据目录。