火花固定样品结果

时间:2019-02-21 17:43:19

标签: apache-spark

我在Spark中采样数据时遇到问题。 尝试以恒定百分比(1%)采样数据

对相同数据运行相同查询时,得到不同结果。 我尝试使用以下方法采样数据: 1. Spark SQL-由和randInt分发(613) 2.带有分数和种子的dataframe.sample(613)。 3.将数据帧转换为rdd并从(2)运行相同的命令

从所有方面来看,在具有多个节点的群集上运行时,我得到的结果都不一样。 当我在驱动程序上或包含1个节点的群集中运行此命令时,每次都会得到相同的结果。

任何帮助都会受到祝福!

0 个答案:

没有答案