如何在布尔列上拆分DataFrame

时间:2016-10-18 10:00:00

标签: apache-spark spark-dataframe

我想分割一个DataFrame,关于一个布尔列。

我想出了:

def partition(df: DataFrame, c: Column): (DataFrame, DataFrame) = 
  (df.filter(c === true), df.filter(c === false))

注意:在我的用例中,c是一个UDF。

有更好的方法吗?

我想:

  • 避免扫描2次DataFrame
  • 避免丑陋的布尔测试

以下是一个例子:

@ val df = sc.parallelize(Seq(1,2,3,4)).toDF("i")
df: org.apache.spark.sql.DataFrame = [i: int]
@ val u = udf((i: Int) => i % 2 == 0)
u: org.apache.spark.sql.UserDefinedFunction = UserDefinedFunction(<function1>, BooleanType, List(IntegerType))
@ partition(df, u($"i"))
res25: (org.apache.spark.sql.DataFrame, org.apache.spark.sql.DataFrame) = ([i: int], [i: int])

1 个答案:

答案 0 :(得分:0)

将combineByKey用于布尔列

data.combineByKey(lambda value: (value, 1),
                             lambda x, value: (x[0] + value, x[1] + 1),
                             lambda x, y: (x[0] + y[0], x[1] + y[1]))