Pyspark ..滞后于生成/计算的列

时间:2018-08-24 05:25:05

标签: pyspark lag

我正在尝试根据条件携带先前计算的列。

import pyspark.sql.functions as f
from pyspark.sql.window import Window

df = sc.parallelize([
    [1, 1 ],
    [1, 2 ],
    [3, 4 ],
    [4, 5 ],
    [1, 3 ]
]).toDF(('a', 'b' ))

当Col“ a”的值<> 1时,它应携带对应于A的最后一个已知的列B值(在这种情况下为2)。因此输出应如下所示。

[1, 1 ],
[1, 2 ],
[3, 2 ],
[4, 2 ],
[1, 3 ]

我们如何发扬以前的价值。

对此有所帮助。

0 个答案:

没有答案