在每列的数据帧中使用pyspark计算不重复的,空值,nans

时间:2019-01-30 16:28:42

标签: apache-spark pyspark apache-spark-sql

这是一个概念性问题,试图知道这是否是正确的方法。我在pyspark中编写了一个函数,将数据帧传递给该函数。该函数以这种方式考虑每列的非空,空,空,nan和不同寄存器:

for col in df.columns:
    notnulls = df.filter((f.col(col).isNotNull())).count()
    nulls = df.filter((f.col(col).isNull())).count()
    empty = df.filter((df[col] == '')).count()
    nans = df.filter((f.isnan(df[col]))).count()
    distincts = df.select(col).distinct().count()

我不知道这是正确的方法,还是有其他方法可以提高性能。

谢谢。

0 个答案:

没有答案