如何在S3上指定Hive EXTERNAL TABLE数据的文件大小

时间:2016-02-25 20:08:47

标签: hadoop amazon-s3 hive

我可以在Hive中创建EXTERNAL TABLE,其中数据以Gzip格式存储在S3存储桶中。但是,文件非常大(每个超过6GB)。

是否可以将Hive配置为以EXTERNAL TABLE特定大小制作文件,例如512MB?

1 个答案:

答案 0 :(得分:1)

这听起来很奇怪,默认情况下,我的外部表通常有大约300MB的文件大小。无论如何,调整它的最简单方法是使用PARTITION BY键(可能基于时间戳),这将强制文件更小,并且具有使数据更易于查询的附加优势。此外,你应该考虑使用像Parquet这样的可拆分格式,从那时起你的文件大小真的很重要。