有没有一种方法可以使用Java将Spark中Dataset <Row>对象中的下一行的列值与当前行进行比较

时间:2019-10-10 18:21:16

标签: apache-spark apache-spark-sql apache-spark-dataset

我正在尝试使用Java将具有以下给出的模式的现有数据集转换为新的模式

当前架构

 id roll_no student 
 1   1232    john 
 2   1234    anna 
 3   1233    mike
 4   1235    dave

应该在以下根据roll_no转换为新模式,如果roll_no在当前学生旁边,则添加next_student列

id roll_no student next_student 
1   1232    john     mike 
2   1234    anna     dave 
3   1233    mike     anna 
4   1235    dave     null

有没有一种方法可以比较数据集中不同行的列值。我将不胜感激能解决这个问题的任何线索。

我在Scala和PySpark中看到了Window对象滞后和Lead方法,但是我想知道Java中是否有办法

0 个答案:

没有答案