我正在使用hive
来查询分区为instance/year/month/day
的数据,该数据位于s3
。
对于ex instance='new'/year=2017/month=5/day=1
的给定分区,存在多个压缩为.tsv.gz的文件。其中一些文件可能已损坏或在任何给定时间点都有0 B
。
当我查询构建在它上面的表时,我收到以下错误,
Unexpected end of input stream error.Vertex failed
有没有办法只查询大小超过0或未通过配置单元损坏的文件?
感谢。
JayZee