PySpark:如何从巨大的RDD中获取样本RDD?

时间:2015-07-24 17:44:17

标签: apache-spark rdd pyspark

在处理以RDD为参数的函数时,我一直在寻找调试选项。由于有一个巨大的RDD,我想采用它的一个子集来开发函数。

我如何制作RDD的子集? 新样本应该是RDD?

1 个答案:

答案 0 :(得分:2)

喔!

我知道了我们可以使用样本函数

sample(self, withReplacement, fraction, seed=None)

返回此RDD的采样子集(如果numpy不可用,则依赖于numpy并返回默认随机生成器。)