我可以在Hive中创建EXTERNAL TABLE
,其中数据以Gzip格式存储在S3存储桶中。但是,文件非常大(每个超过6GB)。
是否可以将Hive配置为以EXTERNAL TABLE
特定大小制作文件,例如512MB?
答案 0 :(得分:1)
这听起来很奇怪,默认情况下,我的外部表通常有大约300MB的文件大小。无论如何,调整它的最简单方法是使用PARTITION BY
键(可能基于时间戳),这将强制文件更小,并且具有使数据更易于查询的附加优势。此外,你应该考虑使用像Parquet这样的可拆分格式,从那时起你的文件大小真的很重要。