Spark SQL窗口功能展望未来,功能复杂

时间:2017-07-31 03:15:46

标签: scala apache-spark apache-spark-sql window-functions

我有以下数据:

+-----+----+-----+
|event|t   |type |
+-----+----+-----+
| A   |20  | 1   |
| A   |40  | 1   |
| B   |10  | 1   |
| B   |20  | 1   |
| B   |120 | 1   |
| B   |140 | 1   |
| B   |320 | 1   |
| B   |340 | 1   |
| B   |360 | 7   |
| B   |380 | 1   |
+-----+-----+----+

我想要的是这样的事情:

+-----+----+----+
|event|t   |grp |
+-----+----+----+
| A   |20  |1   |
| A   |40  |1   |
| B   |10  |2   |
| B   |20  |2   |
| B   |120 |3   |
| B   |140 |3   |
| B   |320 |4   |
| B   |340 |4   |
| B   |380 |5   |
+-----+----+----+

规则:

  1. 将所有值组合在一起,彼此相距至少50毫秒。 (第t栏)属于同一事件。
  2. 当出现类型7的行时,也要删除该行并删除该行。 (见最后一行)
  3. 我可以通过this thread的回答实现第一条规则:

    代码:

    val windowSpec= Window.partitionBy("event").orderBy("t")
    
     val newSession =  (coalesce(
      ($"t" - lag($"t", 1).over(windowSpec)),
      lit(0)
    ) > 50).cast("bigint")
    
    val sessionized = df.withColumn("session", sum(newSession).over(userWindow))
    

    我必须说我无法弄清楚它是如何工作的,并且不知道如何修改它以便规则2也有效...... 希望有人能给我一些有用的提示。

    我尝试了什么:

    val newSession =  (coalesce(
      ($"t" - lag($"t", 1).over(windowSpec)),
      lit(0)
    ) > 50 || lead($"type",1).over(windowSpec) =!= 7 ).cast("bigint")
    

    但只发生了一次错误:"必须遵循方法;无法关注org.apache.spark.sql.Column val grp = (coalesce(

1 个答案:

答案 0 :(得分:2)

这应该可以解决问题:

val newSession =  (coalesce(
  ($"t" - lag($"t", 1).over(win)),
  lit(0)
) > 50 
  or $"type"===7) // also start new group in this case
 .cast("bigint")

df.withColumn("session", sum(newSession).over(win))
.where($"type"=!=7) // remove these rows
.orderBy($"event",$"t")
.show

给出:

+-----+---+----+-------+
|event|  t|type|session|
+-----+---+----+-------+
|    A| 20|   1|      0|
|    A| 40|   1|      0|
|    B| 10|   1|      0|
|    B| 20|   1|      0|
|    B|120|   1|      1|
|    B|140|   1|      1|
|    B|320|   1|      2|
|    B|340|   1|      2|
|    B|380|   1|      3|
+-----+---+----+-------+