检查列是否全部为空

时间:2019-08-09 03:24:14

标签: apache-spark pyspark apache-spark-sql

我有一个列名和一个数据框。我想检查该列中的所有值是否为空,如果为空,则从数据框中删除该列。

我所做的工作是检查具有非空值的列的计数,如果count等于0,则删除该列,但这似乎在pyspark中是一项昂贵的操作

1 个答案:

答案 0 :(得分:0)

您的操作方式是正确的方法。关于性能,您可能要在数据帧上使用缓存(如果它适合内存)。
还可以考虑先对数据框的子集(甚至仅对第一行)进行操作,以查找绝对不总是为null的列。这样可以减少必须检查完整数据的列数