这是一个概念性问题,试图知道这是否是正确的方法。我在pyspark中编写了一个函数,将数据帧传递给该函数。该函数以这种方式考虑每列的非空,空,空,nan和不同寄存器:
for col in df.columns:
notnulls = df.filter((f.col(col).isNotNull())).count()
nulls = df.filter((f.col(col).isNull())).count()
empty = df.filter((df[col] == '')).count()
nans = df.filter((f.isnan(df[col]))).count()
distincts = df.select(col).distinct().count()
我不知道这是正确的方法,还是有其他方法可以提高性能。
谢谢。