标签: apache-spark
我在Spark中采样数据时遇到问题。 尝试以恒定百分比(1%)采样数据
对相同数据运行相同查询时,得到不同结果。 我尝试使用以下方法采样数据: 1. Spark SQL-由和randInt分发(613) 2.带有分数和种子的dataframe.sample(613)。 3.将数据帧转换为rdd并从(2)运行相同的命令
从所有方面来看,在具有多个节点的群集上运行时,我得到的结果都不一样。 当我在驱动程序上或包含1个节点的群集中运行此命令时,每次都会得到相同的结果。
任何帮助都会受到祝福!