Question

我有一个很大的pyspark数据帧，我会计算行数，但是count()方法太慢了。还有其他更快的方法吗？

Answer 1

如果您不介意获得近似计数，则可以先尝试sampling the dataset，然后根据采样因子进行缩放：

>>> df = spark.range(10)
>>> df.sample(0.5).count()
4

在这种情况下，您可以将count()的结果缩放2（或1 / 0.5）。显然，这种方法存在统计错误。