我看到Redshift UNLOAD发生了一件非常奇怪的事情,并想知道是否有其他人已经看过这个或有解释。
我有一个UNLOAD查询。当我使用' Select Distinct'使用GZIP时,卸载的文件加起来是我选择*'选择*' (没有区别)与GZIP。
以下是查询:
UNLOAD ('SELECT DISTINCT <29 fields> FROM public.mytable WHERE myfield = 999')
TO 's3://myBucket/myfile.txt' CREDENTIALS 'mycreds' DELIMITER '\t'
GZIP PARALLEL TRUE MAXFILESIZE 256 MB ALLOWOVERWRITE;
此查询的输出最多可添加26GB。
如果我将其更改为&#39;选择*&#39; ,则输出为8GB。此外,Select Distinct创建14个zip文件,而Select *仅创建5个zip文件。
这是矛盾的,因为人们会期望重复数据删除的文件更小。
我认为GZIP Distinct正在创建比GZIP Select *更大的zip字典文件。
问题是,为什么?