Question

我有一个2000亿行的数据集，我想随机抽取100万行以开始处理数据模型。

我正在使用pyspark。

处理十亿行的最佳方法是什么？

Answer 1

您可以在数据框上使用sample方法。

例如：

# Create a 0.0005% sample without replacement, with a random seed of 42
# (1 million/200 billion) = 0.000005
>>> df.sample(withReplacement=False, fraction=0.000005, seed=42).count()

如何从Pyspark中的十亿行数据集中随机行

1 个答案: