标签: apache-spark pyspark apache-spark-sql
我有一个很大的pyspark数据帧,我会计算行数,但是count()方法太慢了。还有其他更快的方法吗?
count()
答案 0 :(得分:-1)
如果您不介意获得近似计数,则可以先尝试sampling the dataset,然后根据采样因子进行缩放:
>>> df = spark.range(10) >>> df.sample(0.5).count() 4
在这种情况下,您可以将count()的结果缩放2(或1 / 0.5)。显然,这种方法存在统计错误。