这是我的情景。 我在亚马逊s3中有bz2文件。在bz2文件中,存在扩展名为.dat,.met,.sta的文件。我只对带有* .dat扩展名的文件感兴趣。您可以下载此samplefile来查看bz2文件。 />
create external table cdr (
anum string,
bnum string,
numOfTimes int
)
row format delimited
fields terminated by ','
lines terminated by '\n'
location 's3://mybucket/dir'; #the zip file is inside here
问题在于,当我执行上述命令时,某些记录/行存在问题。
1)还包括来自* .sta和* .met等文件的所有数据 2)还包括文件名的元数据。
我唯一的想法就是展示INPUT_ FILE _NAME。但是,所有记录/行都具有相同的INPUT_ FILE _NAME,即filename.tar.bz2。
欢迎任何建议。我现在完全迷失了。