在Scala中将数据帧作为可选函数参数传递

时间:2017-07-12 06:46:37

标签: scala apache-spark apache-spark-sql

有没有办法可以将数据帧作为Scala中的可选输入函数参数传递?  例如:

def test(sampleDF: DataFrame = df.sqlContext.emptyDataFrame): DataFrame = {


}


df.test(sampleDF)

虽然我在这里传递一个有效的数据帧,但它总是分配给一个空的数据帧,我该如何避免这种情况?

1 个答案:

答案 0 :(得分:2)

是的,您可以将dataframe作为参数传递给函数

假设您有一个dataframe

import sqlContext.implicits._

val df = Seq(
  (1, 2, 3),
  (1, 2, 3)
).toDF("col1", "col2", "col3")

+----+----+----+
|col1|col2|col3|
+----+----+----+
|1   |2   |3   |
|1   |2   |3   |
+----+----+----+

您可以将其传递给下面的函数

import org.apache.spark.sql.DataFrame
def test(sampleDF: DataFrame): DataFrame = {
  sampleDF.select("col1", "col2") //doing some operation in dataframe
}

val testdf = test(df)

testdf将是

+----+----+
|col1|col2|
+----+----+
|1   |2   |
|1   |2   |
+----+----+

<强>被修改

正如伊莱亚指出的那样,@ Garipaso想要可选择的论点。这可以通过将函数定义为

来完成
def test(sampleDF: DataFrame = sqlContext.emptyDataFrame): DataFrame = {
  if(sampleDF.count() > 0) sampleDF.select("col1", "col2") //doing some operation in dataframe
  else sqlContext.emptyDataFrame  
}

如果我们将有效数据框作为

传递
test(df).show(false)

它将输出为

+----+----+
|col1|col2|
+----+----+
|1   |2   |
|1   |2   |
+----+----+

但如果我们不将参数作为

传递
test().show(false)

我们将空数据框作为

++
||
++
++

我希望答案很有帮助