我们需要使用java在apache spark中执行随机抽样。 因此,我们需要从数据集中选择随机数量的精确记录数。
我们正在使用以下代码。有时它不会选择确切数量的记录。
sampledDataSet=sampledDataSet.union(specficClassName.orderBy(rand()).limit(500));
插图:
假设在DataSet specficClassName具有 700 记录的情况下,即使我们在上面的示例中提到 500 作为限制,它也会选择650。
我们大部分时间都没有获得准确的 500 记录。
请您帮助我们使用哪种功能以获得确切的记录数。