我需要找到pyspark数据框中所有列的零百分比。如何找到数据框中各列的零计数?
P.S:我尝试将数据框转换为熊猫数据框并使用了value_counts。但是,对于大型数据集,无法推断出它的观测结果。
答案 0 :(得分:0)
“如何找到数据框中各列的零计数?”
第一:
import pyspark.sql.functions as F
df_zero = df.select([F.count(F.when(df[c] == 0, c)).alias(c) for c in df.columns])
第二:然后您可以查看计数(与.show()相比,您可以看到更好的视图。并且速度没有太大差别):
df_zero.limit(2).toPandas().head()
享受! :)