Spark DataFrame性能问题:选择使用位置与过滤条件

时间:2018-10-16 03:37:19

标签: scala apache-spark apache-spark-sql apache-spark-dataset

以下哪个Spark操作具有较少的内存和时间开销? N.B.两种操作都提供相同的输出。

  1.  val df2 = df1.select("*").where(df1("col").isNotNull)
  2.  val df2 = df1.filter(df1("col").isNotNull)

0 个答案:

没有答案