Pyspark中是否有此Pandas功能的吊坠?
pandasDataFrame.rolling('2s', min_periods=1).sum()
有问题的列具有这样的时间戳记
2013-01-01 09:00:00 0.0
2013-01-01 09:00:02 1.0
2013-01-01 09:00:05 3.0
:
(此处的文档:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rolling.html)
:
答案 0 :(得分:1)
在spark中使用window函数。
from pyspark.sql import functions as F
df.withColumn(
"window",
F.window("tmst", "2 secondes")
)