RDD takeSample Scala Spark

时间:2018-07-13 12:49:45

标签: scala apache-spark rdd

查看方法:

public java.lang.Object takeSample(boolean withReplacement,
                          int num,
                          long seed)

如果我将其用作:

RDD.takeSample(false, 5)

我希望每次使用它时,我都会得到一个大小为5且具有不同成员的样本,但事实并非如此。我在迭代函数中使用它,它无法将重复项保留在样本之外。另外,如何使用此方法或其他任何没有重复的方法获得分布良好的样品?

0 个答案:

没有答案