select语句对Spark DataFrames的性能影响如何?

时间:2015-09-29 22:20:07

标签: scala apache-spark apache-spark-sql

在Spark DataFrames上使用了很多select语句或表达式,我想知道一旦动作触发它们对后续转换的性能影响。

给定一个数据帧df,其中包含10列a到j。

  1. 如果我在每列上使用as进行列重命名,会有什么影响?

    df.select(df(" a")。as(" 1"),...,df(" j")。as(& #34; 10&#34))

  2. 如果我选择一个子集(例如5列)

    ,该怎么办?

    val df2 = df.select(df(" a"),...,df(" e"))

    湾如何处理Spark投影? df仍然保留(因为df2是一个投影),所以df可以作为参考吗?或者是df2新创建并df被丢弃? (忽视任何坚持在这里)

  3. Column中使用的一般select表达式的影响如何?

  4. 上述案例的性能测试是否可用?一般情况下,性能测量是否可用?如果没有,如何最好地衡量绩效?

0 个答案:

没有答案
相关问题