AWS Athena损坏文件检测

时间:2018-06-27 12:50:10

标签: mysql sql amazon-web-services amazon-s3 amazon-athena

我们的S3存储中包含损坏的JSON文件,这些文件导致Athena查询失败。仅当查询从JSON文件的损坏部分请求数据时才引起错误。因此,我能够提取位于文件顶部的唯一ID,但是如果查询稍后在文件中使用大数组,则它将中断。目前,我通过运行多个查询来识别错误文件,从而使用手动快速搜索。

使用Athena查询,有没有一种方法可以逐步检查每个文件,以识别文件是否损坏,然后返回唯一ID?似乎某种类型的存储过程可以工作,但是Athena不支持存储过程。

有什么想法吗?

0 个答案:

没有答案