什么是spark中的采样方法?为何不进行水库采样?

时间:2016-05-25 03:20:40

标签: apache-spark sampling

我知道水库采样可以并行应用,但火花似乎使用我不知道的其他采样方法。有人能简要描述一下吗?

根据@Tristan的回答,我想不使用水库采样的目的是保持班级的平衡。但我通过源代码,发现了标签。

1 个答案:

答案 0 :(得分:-1)

我知道分层抽样的存在< / p>&#XA;