Redshift UNLOAD Select Distinct创建更大的zip文件与Select *?

时间:2018-04-30 14:08:53

标签: gzip distinct amazon-redshift

我看到Redshift UNLOAD发生了一件非常奇怪的事情,并想知道是否有其他人已经看过这个或有解释。

我有一个UNLOAD查询。当我使用' Select Distinct'使用GZIP时,卸载的文件加起来是我选择*'选择*' (没有区别)与GZIP。

以下是查询:

UNLOAD ('SELECT DISTINCT <29 fields> FROM public.mytable WHERE myfield = 999') 
TO 's3://myBucket/myfile.txt' CREDENTIALS 'mycreds' DELIMITER '\t' 
GZIP PARALLEL TRUE MAXFILESIZE 256 MB ALLOWOVERWRITE;

此查询的输出最多可添加26GB。

如果我将其更改为&#39;选择*&#39; ,则输出为8GB。此外,Select Distinct创建14个zip文件,而Select *仅创建5个zip文件。

这是矛盾的,因为人们会期望重复数据删除的文件更小。

我认为GZIP Distinct正在创建比GZIP Select *更大的zip字典文件。

问题是,为什么?

0 个答案:

没有答案