猪的分层抽样?

时间:2014-01-03 17:51:47

标签: hadoop apache-pig sampling downsampling

有没有人知道如何在猪身上进行分层抽样? (wikipedia

目前,我做了类似的事情:

relation2 = SAMPLE relation1 0.05;

但我的数据集包含一些标签列,其中有一些是罕见的(例如0.5%),我希望我的随机下采样不要忘记所有这些。

非常感谢。

1 个答案:

答案 0 :(得分:1)

您可以使用RANDOM()实现自己的抽样方法,然后过滤掉价值低于0.95的行。因此,如果您想对此采样进行分层,您可以计算行的哪一部分包含某个值,然后相应地缩放随机值,以便以不同的速率对不同的值进行采样。