标签: apache-spark sampling
我知道水库采样可以并行应用,但火花似乎使用我不知道的其他采样方法。有人能简要描述一下吗?
根据@Tristan的回答,我想不使用水库采样的目的是保持班级的平衡。但我通过源代码,发现了标签。
答案 0 :(得分:-1)
我知道分层抽样的存在< / p>&#XA;