Question

在处理以RDD为参数的函数时，我一直在寻找调试选项。由于有一个巨大的RDD，我想采用它的一个子集来开发函数。

我如何制作RDD的子集？新样本应该是RDD？

Answer 1

喔！

我知道了我们可以使用样本函数

sample(self, withReplacement, fraction, seed=None)

返回此RDD的采样子集（如果numpy不可用，则依赖于numpy并返回默认随机生成器。）