Apache Spark在Dataframe

时间:2017-09-22 17:47:32

标签: java sql apache-spark apache-spark-sql gaps-and-islands

我有以下格式的Apache Spark Dataframe

| ID |  groupId  | phaseName |
|----|-----------|-----------|
| 10 | someHash1 | PhaseA    |
| 11 | someHash1 | PhaseB    |
| 12 | someHash1 | PhaseB    |
| 13 | someHash2 | PhaseX    |
| 14 | someHash2 | PhaseY    |

每一行代表一个阶段,该阶段发生在由几个阶段组成的过程中。 ID列表示阶段的连续顺序,groupId列显示哪些阶段属于一起。

我想在数据框中添加一个新列:previousPhaseName。此列应指明以前的同一过程的不同阶段。流程的第一阶段(具有最小ID的阶段)将具有null作为前一阶段。当一个阶段出现两次或更多时,第二个(第三个......)出现将具有相同的previousPhaseName例如:

df = 
| ID |  groupId  | phaseName | prevPhaseName |
|----|-----------|-----------|---------------|
| 10 | someHash1 | PhaseA    | null          |
| 11 | someHash1 | PhaseB    | PhaseA        |
| 12 | someHash1 | PhaseB    | PhaseA        |
| 13 | someHash2 | PhaseX    | null          |
| 14 | someHash2 | PhaseY    | PhaseX        |

我不知道如何实现这一点。我的第一个方法是:

  • 创建第二个空数据框df2
  • 表示df中的每一行:
    找到groupId = row.groupId的行,ID< row.ID和最大ID
  • 将此行添加到df2
  • 加入df1和df2

使用窗口函数的部分解决方案

我使用Window Functions来聚合前一阶段的名称,组中当前阶段的先前出现次数(不一定是连续的)以及当前阶段和先前阶段名称是否相等的信息:

WindowSpec windowSpecPrev = Window
  .partitionBy(df.col("groupId"))
  .orderBy(df.col("ID"));
WindowSpec windowSpecCount = Window
  .partitionBy(df.col("groupId"), df.col("phaseName"))
  .orderBy(df.col("ID"))
  .rowsBetween(Long.MIN_VALUE, 0);

df
  .withColumn("prevPhase", functions.lag("phaseName", 1).over(windowSpecPrev))
  .withColumn("phaseCount", functions.count("phaseId").over(windowSpecCount))
  .withColumn("prevSame", when(col("prevPhase").equalTo(col("phaseName")),1).otherwise(0))

df = 
| ID |  groupId  | phaseName | prevPhase   | phaseCount | prevSame |
|----|-----------|-----------|-------------|------------|----------|
| 10 | someHash1 | PhaseA    | null        |  1         |  0       |
| 11 | someHash1 | PhaseB    | PhaseA      |  1         |  0       |
| 12 | someHash1 | PhaseB    | PhaseB      |  2         |  1       |
| 13 | someHash2 | PhaseX    | null        |  1         |  0       |
| 14 | someHash2 | PhaseY    | PhaseX      |  1         |  0       |

这仍然不是我想要实现的目标,但现在还不够好

进一步的想法

为了获得前一个不同阶段的名称,我看到了三个未经彻底调查的可能性:

  • 实现一个自己的lag函数,该函数不接受偏移但递归检查前一行,直到找到与给定行不同的值。 (虽然我不认为它可以在Spark SQL中使用自己的分析窗口函数)
  • 找到一种根据lag的值动态设置phaseCount函数的偏移量的方法。 (如果先前出现的相同phaseName没有出现在单个序列中,则可能会失败)
  • 在存储第一个给定输入的ID和phaseName的窗口上使用UserDefinedAggregateFunction,并寻找具有不同phaseName的最高ID。

2 个答案:

答案 0 :(得分:2)

我能够通过以下方式解决这个问题:

  1. 获取(普通)上一阶段。
  2. 引入一个新的id,用于对按顺序发生的阶段进行分组。 (借助此answer)。这需要两个步骤。首先检查当前和以前的阶段名称是否相等,并相应地分配groupCount值。第二个计算此值的累积总和。
  3. 将顺序组第一行的上一阶段分配给其所有成员。
  4. 实施

    WindowSpec specGroup = Window.partitionBy(col("groupId"))  
                                 .orderBy(col("ID"));
    WindowSpec specSeqGroupId = Window.partitionBy(col("groupId")) 
                                      .orderBy(col("ID"))
                                      .rowsBetween(Long.MIN_VALUE, 0);
    WindowSpec specPrevDiff = Window.partitionBy(col("groupId"), col("seqGroupId"))
                                    .orderBy(col("ID"))
                                    .rowsBetween(Long.MIN_VALUE, 0);
    
    df.withColumn("prevPhase", coalesce(lag("phaseName", 1).over(specGroup), lit("NO_PREV"))) 
      .withColumn("seqCount", when(col("prevPhase").equalTo(col("phaseName")).or(col("prevPhase").equalTo("NO_PREV")),0).otherwise(1))
      .withColumn("seqGroupId", sum("seqCount").over(specSeqGroupId))
      .withColumn("prevDiff", first("prevPhase").over(specPrevDiff));
    

    结果

    df = 
    | ID |  groupId  | phaseName | prevPhase | seqCount | seqGroupId | prevDiff |
    |----|-----------|-----------|-----------|----------|------------|----------|
    | 10 | someHash1 | PhaseA    | NO_PREV   |  0       |  0         | NO_PREV  |
    | 11 | someHash1 | PhaseB    | PhaseA    |  1       |  1         | PhaseA   |
    | 12 | someHash1 | PhaseB    | PhaseA    |  0       |  1         | PhaseA   |
    | 13 | someHash2 | PhaseX    | NO_PREV   |  0       |  0         | NO_PREV  |
    | 14 | someHash2 | PhaseY    | PhaseX    |  1       |  1         | PhaseX   |
    

    任何建议,特别是在这些操作的效率方面都表示赞赏。

答案 1 :(得分:1)

我猜你可以使用Spark窗口(行框架)功能。查看api文档和以下帖子。

https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html