我正在尝试根据条件携带先前计算的列。
import pyspark.sql.functions as f
from pyspark.sql.window import Window
df = sc.parallelize([
[1, 1 ],
[1, 2 ],
[3, 4 ],
[4, 5 ],
[1, 3 ]
]).toDF(('a', 'b' ))
当Col“ a”的值<> 1时,它应携带对应于A的最后一个已知的列B值(在这种情况下为2)。因此输出应如下所示。
[1, 1 ],
[1, 2 ],
[3, 2 ],
[4, 2 ],
[1, 3 ]
我们如何发扬以前的价值。
对此有所帮助。