Apache Spark Java中的随机抽样

时间:2017-10-12 13:26:54

标签: apache-spark random apache-spark-sql apache-spark-dataset

我们需要使用java在apache spark中执行随机抽样。 因此,我们需要从数据集中选择随机数量的精确记录数。

我们正在使用以下代码。有时它不会选择确切数量的记录。

sampledDataSet=sampledDataSet.union(specficClassName.orderBy(rand()).limit(500));

插图

假设在DataSet specficClassName具有 700 记录的情况下,即使我们在上面的示例中提到 500 作为限制,它也会选择650。

我们大部分时间都没有获得准确的 500 记录。

请您帮助我们使用哪种功能以获得确切的记录数。

0 个答案:

没有答案