DataFrame.count()== 0 Vs DataFrame.rdd.isEmpty():哪个更好,为什么?

时间:2017-06-01 09:59:09

标签: scala apache-spark apache-spark-sql

我正在尝试找一种更好的方法来检查数据帧是否为空

2 个答案:

答案 0 :(得分:3)

  

.isEmpty()是最好的。它更短,更不易出错。

更新

Spark代码以更好的方式解释!!在RDD类isEmpty()中是

def isEmpty(): Boolean = withScope {
  partitions.length == 0 || take(1).length == 0
}

答案 1 :(得分:2)

最快的方法应该是:

datset.limit(1).take(1).length > 0

这与RDD isEmpty类似,但不需要反序列化,例如调用.rdd

但是很难说在你的情况下它是否更好 - 我们不知道要求