Question

我正在处理Spark中的数据集：

+------------+------------+------------+
|     ColumnA|     ColumnB|     Result |
+------------+------------+------------+
|      ABCDEF|    MNOPQRST|      true  |
|      123455|      UVWXYZ|      false |
|      ABCDEF|    MNOPQRST|      false | (should be true)
|      123455|      UVWXYZ|      false |
|      123455|      UVWXYZ|      false |
|      ABCDEF|    EFGHIJK |      false |
+------------+------------+------------+

规则是：

如果给定分区集Result的等级为true，则为rank。
如果排名不为1并且ColumnA的值为123455，请将Result的值设置为false
如果等级不为1并且ColumnA的值不是123455，并且如果ColumnB的值与上一行的ColumnB的值匹配，则将Result设置为true。确保上一行的ColumnA的值不是123455

WindowSpec w = Window.partitionBy（“ ColumnA，ColumnB”）;

列matchColumnB = functions.col（“ ColumnB”）。equalTo（ functions.lag（“ ColumnB”，1）.over（w））;

此处，窗口函数在不考虑上一行的ColumnA值的情况下检查了上一行。

例如在上述数据集中，应将第3行的ColumnB值与第1行而不是第2行进行比较。

我尝试查看Window.unboundedPreceding，但不确定在这种情况下如何使用它。

有没有办法做到这一点？

Answer 1

要复制DF：

val df = sc.parallelize(List(("ABCDEF","MNOPQRST"), 
                    ("123455","UVWXYZ"),
                    ("ABCDEF","MNOPQRST"),
                    ("123455","UVWXYZ"),
                    ("123455","UVWXYZ"), 
                    ("ABCDEF","EFGHIJK")))
   .toDF("ColumnA","ColumnB")

所提供的信息中有一些矛盾，例如，您的窗口实现使得无法应用上述条件。

根据行的顺序[排名和与上一行的比较]进行窗口分析时，有一些必要条件

您需要定义适当的分区列。如果窗口被columnA和columnB划分，则它们的值对于给定窗口将保持不变。因此，如果需要在columnA或columnB行之间比较lead和lag，则DF需要按其他列进行分区。 显示问题原因的示例

val w = Window.partitionBy("ColumnA", "ColumnB").orderBy("ColumnA", "ColumnB");
df.withColumn("rank", rank.over(w)).show
+-------+--------+----+
|ColumnA| ColumnB|rank|
+-------+--------+----+
| ABCDEF| EFGHIJK|   1|
| ABCDEF|MNOPQRST|   1|
| ABCDEF|MNOPQRST|   1|
| 123455|  UVWXYZ|   1|
| 123455|  UVWXYZ|   1|
| 123455|  UVWXYZ|   1|
+-------+--------+----+

每行现在充当其自己的窗口。注意顺序，在第2点中进行了解释。

在窗口中也需要具体的order by语句。没有rank，“滞后”，“超前”等将变得不确定，因此没有太大意义。如果没有order by子句，Spark会尝试防止这种情况发生，并且窗口函数会引发异常。 显示问题原因的示例

val w = Window.partitionBy("ColumnA", "ColumnB")
df.withColumn("result", lag("columnB", 1).over(w))

通往：

org.apache.spark.sql.AnalysisException: Window function lag('columnB, 1, null) requires window to be ordered, please add ORDER BY clause. For example SELECT lag('columnB, 1, null)(value_expr) OVER (PARTITION BY window_partition ORDER BY window_ordering) from table;

解决方案 要回答问题本身：我将再考虑两列来回答您的问题。

val df = sc.parallelize(List(("ABCDEF","MNOPQRST", "P1", "1"), 
                        ("123455","UVWXYZ", "P1", "2"),
                        ("ABCDEF","MNOPQRST", "P1", "3"),
                        ("123455","UVWXYZ", "P1", "4"),
                        ("123455","UVWXYZ", "P1", "5"), 
                        ("BLABLAH","UVWXYZ", "P1", "6"),
                        ("ABCDEF","EFGHIJK", "P1", "7")))
       .toDF("ColumnA","ColumnB", "ColumnP", "ColumnO")
+-------+--------+-------+-------+
|ColumnA| ColumnB|ColumnP|ColumnO|
+-------+--------+-------+-------+
| ABCDEF|MNOPQRST|     P1|      1|
| 123455|  UVWXYZ|     P1|      2|
| ABCDEF|MNOPQRST|     P1|      3|
| 123455|  UVWXYZ|     P1|      4|
| 123455|  UVWXYZ|     P1|      5|
|BLABLAH|  UVWXYZ|     P1|      5|
| ABCDEF| EFGHIJK|     P1|      6|
+-------+--------+-------+-------+

此处，分区列为columnP，按列排序为ColumnO

val w = Window.partitionBy("ColumnP").orderBy("ColumnO")
val dfWithWindowing = df.withColumn("lag_columnB", lag("columnB", 1).over(w))
                        .withColumn("rank", rank().over(w))
dfWithWindowing.show
+-------+--------+-------+-------+-----------+----+
|ColumnA| ColumnB|ColumnP|ColumnO|lag_columnB|rank|
+-------+--------+-------+-------+-----------+----+
| ABCDEF|MNOPQRST|     P1|      1|       null|   1|
| 123455|  UVWXYZ|     P1|      2|   MNOPQRST|   2|
| ABCDEF|MNOPQRST|     P1|      3|     UVWXYZ|   3|
| 123455|  UVWXYZ|     P1|      4|   MNOPQRST|   4|
| 123455|  UVWXYZ|     P1|      5|     UVWXYZ|   5|
|BLABLAH|  UVWXYZ|     P1|      6|     UVWXYZ|   6|
| ABCDEF| EFGHIJK|     P1|      7|     UVWXYZ|   7|
+-------+--------+-------+-------+-----------+----+

现在，我们拥有执行所需计算所需的所有信息。不满足任何条件时，关于结果值的规则中没有任何规定，实现认为这是正确的。

val resultDF = dfWithWindowing.withColumn("result", when($"rank"==="1",true).otherwise(
                              when($"ColumnA"==="123455", false).otherwise(
                                    when($"ColumnB"===$"lag_columnB", true).otherwise(true)
                                 )
                              )
                          ).drop("ColumnP", "ColumnO","lag_columnB","rank")
+-------+--------+------+
|ColumnA| ColumnB|result|
+-------+--------+------+
| ABCDEF|MNOPQRST|  true|
| 123455|  UVWXYZ| false|
| ABCDEF|MNOPQRST|  true|
| 123455|  UVWXYZ| false|
| 123455|  UVWXYZ| false|
|BLABLAH|  UVWXYZ|  true|
| ABCDEF| EFGHIJK|  true|
+-------+--------+------+

要了解有关窗口的更多信息，请参阅https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html

Spark SQL：窗口函数滞后直到满足条件

1 个答案: