使用tar.gz文件作为Amazon Athena的源代码

时间:2017-09-20 12:18:29

标签: amazon-web-services amazon-s3 amazon-athena

如果我将Amazon S3上的* .tsv文件定义为Athena表的源并使用OpenCSVSerde或LazySimpleSerDe作为反序列化器,则它可以正常工作。但是,如果我定义包含* .tsv文件的* .tar.gz文件,我会在表中看到几个奇怪的行(例如,一行包含tsv文件名和几行空行)。在Athena中使用tar.gz文件的正确方法是什么?

1 个答案:

答案 0 :(得分:5)

问题是tar,它增加了额外的行。 Athena只能打开* .gz文件,但不能打开tar。所以在这种情况下,我必须使用* .gz而不是* .tar.gz。