标签: apache-spark pyspark apache-spark-sql
我有一个列名和一个数据框。我想检查该列中的所有值是否为空,如果为空,则从数据框中删除该列。
我所做的工作是检查具有非空值的列的计数,如果count等于0,则删除该列,但这似乎在pyspark中是一项昂贵的操作
答案 0 :(得分:0)
您的操作方式是正确的方法。关于性能,您可能要在数据帧上使用缓存(如果它适合内存)。 还可以考虑先对数据框的子集(甚至仅对第一行)进行操作,以查找绝对不总是为null的列。这样可以减少必须检查完整数据的列数