给定时间间隔的熊猫滚动的Pyspark吊坠

时间:2018-11-27 06:58:58

标签: pandas dataframe pyspark rolling-sum

Pyspark中是否有此Pandas功能的吊坠?

pandasDataFrame.rolling('2s', min_periods=1).sum()

有问题的列具有这样的时间戳记

2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:05  3.0
:

(此处的文档:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rolling.html

1 个答案:

答案 0 :(得分:1)

在spark中使用window函数。

from pyspark.sql import functions as F
df.withColumn(
    "window",
    F.window("tmst", "2 secondes")
)