有没有人知道如何在猪身上进行分层抽样? (wikipedia)
目前,我做了类似的事情:
relation2 = SAMPLE relation1 0.05;
但我的数据集包含一些标签列,其中有一些是罕见的(例如0.5%),我希望我的随机下采样不要忘记所有这些。
非常感谢。
答案 0 :(得分:1)
您可以使用RANDOM()
实现自己的抽样方法,然后过滤掉价值低于0.95的行。因此,如果您想对此采样进行分层,您可以计算行的哪一部分包含某个值,然后相应地缩放随机值,以便以不同的速率对不同的值进行采样。