scala中前一个窗口中后续窗口中的行列表的差异

时间:2016-10-25 19:18:13

标签: scala apache-spark spark-dataframe

我有一个数据帧1 。对于每个时间帧't',我想比较两个相邻窗口行的行列表 - 例如((a,b,c),(b,c,d)之间的差异......)和((a,b,c),(x,y,z)...)分别为t = 1和t = 2。基本上,我希望在前一个窗口的后续窗口中获得列表中的差异,即两个时间帧中两个列表列表之间的 diff 操作。预期的数据框看起来像数据帧2。

数据框1

+---+---+---+---+
| t | A | B | C |
+---+---+---+---+
| 1 | a | b | c |   
| 1 | b | c | d |   
| 1 | c | d | e |   
| 1 | c | d | f |   
| 1 | d | e | f |   
| 2 | a | b | c |   
| 2 | x | y | z |   
| 2 | c | d | e |   
| 2 | w | x | y |   
| 3 | w | x | y |   
| 3 | c | d | e |   
| 3 | m | n | o |   
+---+---+---+---+

数据框2(结果数据框)

+---+------+
| t | Diff |
+---+------+
| 1 |  0   |
| 2 |  2   |   
| 3 |  1   |   
+---+------+

非常感谢任何帮助。 谢谢。

0 个答案:

没有答案