如果我将Amazon S3上的* .tsv文件定义为Athena表的源并使用OpenCSVSerde或LazySimpleSerDe作为反序列化器,则它可以正常工作。但是,如果我定义包含* .tsv文件的* .tar.gz文件,我会在表中看到几个奇怪的行(例如,一行包含tsv文件名和几行空行)。在Athena中使用tar.gz文件的正确方法是什么?
答案 0 :(得分:5)
问题是tar,它增加了额外的行。 Athena只能打开* .gz文件,但不能打开tar。所以在这种情况下,我必须使用* .gz而不是* .tar.gz。