只是想知道,teradata中的SAMPLE是否以均匀的概率选择(即给出每一行选择相同的概率)。例如:
select * from employee_table sample 8;
每次执行后,返回的数据也将保证不同
答案 0 :(得分:2)
每个SAMPLE
都是随机的,但使用默认值不是真正的简单样本。所有AMP进行通信以确定哪个AMP将返回多少行,即默认SAMPLE
是n个单独样本的UNION
,每个AMP一个。很难注意到因为数据是散列分布的,但是带有NUPI的偏斜表可能会对某些行进行采样的概率更高。
当您需要真正的随机样本时,您必须使用SAMPLE RANDOMIZED ALLOCATION
选项,现在所有AMP中的所有行都具有相同的概率。
但由于它是随机的,当然不能保证每个样本中都有不同的行。