根据spark数据帧中的后续行值过滤行

时间:2016-04-03 12:45:21

标签: scala apache-spark spark-dataframe

我必须根据后续的行值过滤掉行。以下是示例数据框

inputFrame

| id|value|sorted|
+---+-----+------+
|  3|    0|     6|
|  3|    1|     5|
|  3|    0|     7|
|  4|    1|     4|
|  4|    0|     1|
|  4|    0|     3|
+---+-----+------+

需要根据排序列对DF进行排序

scala> val sorted=origin.sort($"sorted".asc).show
  +---+-----+------+
            | id|value|sorted|
            +---+-----+------+
            |  4|    0|     1|
            |  4|    0|     3|
            |  4|    1|     4|
            |  3|    1|     5|
            |  3|    0|     6|
            |  3|    0|     7|
            +---+-----+------+
            ---+------+

从排序后的框架中,我必须创建一个如下所示的数据框

           id value sorted
            4   0      1
            4   0      3
            4   1      4
            3   1      5

需要删除每个id后1(值)之后的所有行。

我从这里得到了没有排序转换的解决方案(Filtering rows based on column values in spark dataframe scala

我真的在Scala中寻找带有排序转换的解决方案。谢谢

此处更新了解决方案 - Filtering rows based on column values in spark dataframe scala

0 个答案:

没有答案