在一个用例中,我们试图推断AWS S3中的Json / Avro / Xml文件的模式。在上述情况下,我们尝试使用胶水数据目录,但对于大于1 MB的文件,它将失败它甚至无法识别文件类型。我们正在尝试在Lambda函数中获取元数据,并且目前已经以Json作为文件格式。
有没有解决的办法?也许是某些本地S3方式(首选),或者是一些开源工具可以通过S3在Java / Python中做到这一点?
如果AWS胶水无法分析基础元数据,那么AWS Athena如何在海量数据之上运行呢?据我了解,雅典娜在内部使用胶水数据目录。