如何从Pyspark中的十亿行数据集中随机行

时间:2019-09-30 15:13:50

标签: pyspark

我有一个2000亿行的数据集,我想随机抽取100万行以开始处理数据模型。

我正在使用pyspark。

处理十亿行的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

您可以在数据框上使用sample方法。

例如:

# Create a 0.0005% sample without replacement, with a random seed of 42
# (1 million/200 billion) = 0.000005
>>> df.sample(withReplacement=False, fraction=0.000005, seed=42).count()