如何通过Dataframe SELECT列表中的Alias列获取组

时间:2017-03-13 13:33:34

标签: apache-spark apache-spark-sql spark-streaming spark-dataframe

我在多列上做SUM,这些列想要包含在SELECT列表中。

以下是我的工作:

<HTML>\r\r\n

如何在SELECT列表中包含别名列?

1 个答案:

答案 0 :(得分:1)

使用col功能或'

import org.apache.spark.sql.functions._
import spark.implicits._
val df=df0
    .join(df1, df1("Col1")<=>df0("Col1"))
    .filter((df1("Colum")==="00")
    .groupBy(df1("Col1"),df1("Col1"))
    .agg(sum(df1("Amount")).alias("Amount1"),sum(df1("Amount2")).alias("Amount2"))
    .select(
        df1("Col1").alias("co11"),
        df1("Col2").alias("Col2"),
        col("Amount1"), 'Amount2 
    )