如何有效地计算数据帧的行数?

时间:2019-04-09 13:35:10

标签: apache-spark pyspark apache-spark-sql

我有一个很大的pyspark数据帧,我会计算行数,但是count()方法太慢了。还有其他更快的方法吗?

1 个答案:

答案 0 :(得分:-1)

如果您不介意获得近似计数,则可以先尝试sampling the dataset,然后根据采样因子进行缩放:

>>> df = spark.range(10)
>>> df.sample(0.5).count()
4

在这种情况下,您可以将count()的结果缩放2(或1 / 0.5)。显然,这种方法存在统计错误。