如何在Spark中使用GroupByKey来计算Nonlinear-groupBy任务

时间:2017-02-19 23:09:56

标签: scala apache-spark apache-spark-sql aggregation

我的表格看起来像

Time  ID  Value1  Value2 
 1    a     1      4
 2    a     2      3
 3    a     5      9
 1    b     6      2
 2    b     4      2 
 3    b     9      1
 4    b     2      5  
 1    c     4      7 
 2    c     2      0

以下是任务和要求:

  1. 我想将列ID设置为键,而不是列Time,但我不想删除列Time。 Spark中有没有办法设置主键?

  2. 聚合函数是非线性的,这意味着您不能使用" reduceByKey"。在计算之前,所有数据必须混洗到一个节点。例如,聚合函数可能看起来像和值的根N,其中N是每个ID的记录数(计数):

    output = root(sum(value1), count(*)) + root(sum(value2), count(*)) 
    
  3. 为清楚起见,对于ID =" a",汇总输出值应为

     output = root(1 + 2 + 5, 3) + root(4 + 3 + 9, 3)    
    

    后三是因为我们有3条记录。对于ID =' b',它是:

     output = root(6 + 4 + 9 + 2, 4) + root(2 + 2 + 1 + 5, 4) 
    

    组合是非线性的。因此,为了得到正确的结果,所有数据都具有相同的" ID"必须在一个遗嘱执行人。

    我在Spark 2.0中检查了UDF或Aggregator。根据我的理解,他们都假设"线性组合"

    有没有办法处理这种非线性组合计算?特别是,利用Spark的并行计算优势?

1 个答案:

答案 0 :(得分:1)

您使用的功能并不需要任何特殊处理。您可以将纯SQL与join

一起使用
import org.apache.spark.sql.Column
import org.apache.spark.sql.functions.{count, lit, sum, pow}

def root(l: Column, r: Column) = pow(l, lit(1) / r)

val out = root(sum($"value1"), count("*")) + root(sum($"value2"), count("*"))

df.groupBy("id").agg(out.alias("outcome")).join(df, Seq("id"))

或窗口功能:

import org.apache.spark.sql.expressions.Window

val w = Window.partitionBy("id")
val outw = root(sum($"value1").over(w), count("*").over(w)) + 
           root(sum($"value2").over(w), count("*").over(w))

df.withColumn("outcome", outw)