如何在Spark Scala中在窗口PartitionBy中应用多个列

时间:2019-06-17 07:18:17

标签: apache-spark

val partitionsColumns = "idnum,monthnum"
val partitionsColumnsList = partitionsColumns.split(",").toList
val loc = "/data/omega/published/invoice"
val df = sqlContext.read.parquet(loc)
val windowFunction = Window.partitionBy  (partitionsColumnsList:_*).orderBy(df("effective_date").desc)
<console>:38: error: overloaded method value partitionBy with alternatives:
(cols: org.apache.spark.sql.Column*)     org.apache.spark.sql.expressions.WindowSpec <and>
(colName: String,colNames: String*)org.apache.spark.sql.expressions.WindowSpec
cannot be applied to (String)
val windowFunction = Window.partitionBy(partitionsColumnsList:_*).orderBy(df("effective_date").desc)

是否可以将列列表发送到partitionBy方法Spark / Scala?

我实现了将一列传递给有效的partitionBy方法的方法。我不知道如何将多列传递给partitionBy方法

基本上我想将List(Columns)传递给partitionBy方法

火花版本是1.6。

3 个答案:

答案 0 :(得分:3)

Window.partitionBy具有以下定义:

static WindowSpec partitionBy(Column... cols) Creates a WindowSpec
     

已定义分区。

static WindowSpec partitionBy(scala.collection.Seq<Column> cols)
     

使用定义的分区创建WindowSpec。

static WindowSpec partitionBy(String colName, scala.collection.Seq<String> colNames) 
     

使用定义的分区创建WindowSpec。

static WindowSpec partitionBy(String colName, String... colNames)
     

使用定义的分区创建WindowSpec。

以您的示例为例,

val partitionsColumnsList = partitionsColumns.split(",").toList

您可以像这样使用它:

Window.partitionBy(partitionsColumnsList.map(col(_)):_*).orderBy(df("effective_date").desc)

Window.partitionBy(partitionsColumnsList.head, partitionsColumnsList.tail _* ).orderBy(df("effective_date").desc)

答案 1 :(得分:1)

您还可以通过将列名称作为列表分配给变量并在 partitionBy 参数中使用它来为 partitionBy 应用多个列,如下所示:

val partitioncolumns = List("idnum","monthnum")
val w = Window.partitionBy(partitioncolumns:_*).orderBy(df("effective_date").desc)

答案 2 :(得分:0)

以下代码对我有用:

Window.partitionBy(partitionsColumnsList.map(col(_)):_*).orderBy(df("effective_date").desc)