在Scala中联接多个数据框

时间:2020-08-05 20:14:18

标签: scala dataframe left-join foldleft

我有两个变量。一个是数据框,另一个是List [Dataframe]。我希望加入这些。目前,我正在使用以下方法:

def joinDfList(SingleDataFrame: DataFrame, DataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = {

    var joinedDf = SingleDataFrame
    DataFrameList.foreach(
      Df => {
        joinedDf = joinedDf.join(Df, groupByCols, "left_outer")
      }
    )
    joinedDf.na.fill(0.0)
}

有没有一种方法可以跳过对“ var”的使用,而不必对“ foreach”使用“ foldleft”?

1 个答案:

答案 0 :(得分:1)

您可以使用foldLeft简单地编写它,而无需使用vars:

def joinDfList(singleDataFrame: DataFrame, dataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = 
  dataFrameList.foldLeft(singleDataFrame)(
    (dfAcc, nextDF) => dfAcc.join(nextDF, groupByCols, "left_outer")
  ).na.fill(0.0)

在此代码dfAcc中,将始终与DataFrame中的新dataFrameList连接,最后您将获得一个DataFrame

重要!小心,在一个作业中使用太多联接可能是性能下降的原因。