标签: apache-spark rdd pyspark
在处理以RDD为参数的函数时,我一直在寻找调试选项。由于有一个巨大的RDD,我想采用它的一个子集来开发函数。
我如何制作RDD的子集? 新样本应该是RDD?
答案 0 :(得分:2)
喔!
我知道了我们可以使用样本函数
sample(self, withReplacement, fraction, seed=None)
返回此RDD的采样子集(如果numpy不可用,则依赖于numpy并返回默认随机生成器。)