pyspark数据帧中所有列的总零计数

时间:2018-08-20 12:41:33

标签: python dataframe pyspark

我需要找到pyspark数据框中所有列的零百分比。如何找到数据框中各列的零计数?

P.S:我尝试将数据框转换为熊猫数据框并使用了value_counts。但是,对于大型数据集,无法推断出它的观测结果。

1 个答案:

答案 0 :(得分:0)

“如何找到数据框中各列的零计数?”

第一:

import pyspark.sql.functions as F
df_zero = df.select([F.count(F.when(df[c] == 0, c)).alias(c) for c in df.columns])

第二:然后您可以查看计数(与.show()相比,您可以看到更好的视图。并且速度没有太大差别):

df_zero.limit(2).toPandas().head()

享受! :)