我有一个2000亿行的数据集,我想随机抽取100万行以开始处理数据模型。
我正在使用pyspark。
处理十亿行的最佳方法是什么?
答案 0 :(得分:0)
您可以在数据框上使用sample方法。
例如:
# Create a 0.0005% sample without replacement, with a random seed of 42
# (1 million/200 billion) = 0.000005
>>> df.sample(withReplacement=False, fraction=0.000005, seed=42).count()