应用错误收集

这是一个概念性问题，试图知道这是否是正确的方法。我在pyspark中编写了一个函数，将数据帧传递给该函数。该函数以这种方式考虑每列的非空，空，空，nan和不同寄存器：

for col in df.columns:
    notnulls = df.filter((f.col(col).isNotNull())).count()
    nulls = df.filter((f.col(col).isNull())).count()
    empty = df.filter((df[col] == '')).count()
    nans = df.filter((f.isnan(df[col]))).count()
    distincts = df.select(col).distinct().count()

我不知道这是正确的方法，还是有其他方法可以提高性能。

谢谢。

在每列的数据帧中使用pyspark计算不重复的，空值，nans

0 个答案: