Question

我有一些时间序列数据，其中既包含白天时间又包含夜间时间值。时间条目以DateTime格式进行解析，并且我有一个例程能够确定对应于夜间的值。

出于我的目的，我只想使用夜间值来计算滚动平均值。

有一种简单的方法吗？

非常感谢您的帮助！

更新：通过数据框的切片看起来像这样：

0    Time                        Value
1    2016-02-16 08:40:14.133000  12
2    2016-02-16 11:25:14.133000  4
3    2016-02-16 23:45:14.133000  8
4    2016-03-16 08:40:14.002700  17
5    2016-03-16 23:45:14.133000  2
6    2016-03-16 23:50:14.133000  6
7    2016-03-16 23:55:14.133000  9
8    2016-04-16 08:40:14.133000  10
9    2016-04-16 11:20:14.133000  2
10   2016-04-16 12:40:14.133000  7
11   2016-04-16 23:45:14.133000  5
12   2016-05-16 08:40:14.002700  11
13   2016-05-16 23:40:14.133000  3
14   2016-05-16 23:50:14.133000  4
15   2016-06-16 08:40:14.002700  11
16   2016-06-16 10:30:14.002700  27
17   2016-06-16 23:25:14.133000  3
18   2016-06-16 23:30:14.133000  5
19   2016-07-16 08:40:14.002700  7
20   2016-07-16 11:15:14.002700  9
21   2016-07-16 23:45:14.133000  18

我只想计算夜间值的每周滚动平均值。在我的示例中，夜间是晚上11点到凌晨5点之间。

Answer 1

您可以使用列编码，该列编码使用的是熊猫日期时间系列的date。然后将此列用于groupby来计算每周的滚动平均值：

df.Time = pd.to_datetime(df.Time)
df['night'] = (df.Time.dt.hour>22) | (df.Time.dt.hour < 6)
df['date'] = df.Time.dt.date
idx = (df.night) & (df.Time.dt.hour>22)
df.loc[idx,'date'] = df.loc[idx,'date'].values + pd.DateOffset(1)
df.date = pd.to_datetime(df.date)
df['rolling_mean'] = np.nan
df.loc[df.night,'rolling_mean'] = df.loc[df.night,'date'].apply(lambda x : df.loc[df.night & df.date.between(x-pd.DateOffset(3),x+pd.DateOffset(3)),'Value'].mean())
df.drop(['night','date'],1,inplace = True)


    Time                        Value   rolling_mean
1   2016-02-16 08:40:14.133000  12      NaN
2   2016-02-16 11:25:14.133000  4       NaN
3   2016-02-16 23:45:14.133000  8       8.000000
4   2016-03-16 08:40:14.002700  17      NaN
5   2016-03-16 23:45:14.133000  2       5.666667
6   2016-03-16 23:50:14.133000  6       5.666667
7   2016-03-16 23:55:14.133000  9       5.666667
8   2016-04-16 08:40:14.133000  10      NaN
9   2016-04-16 11:20:14.133000  2       NaN
10  2016-04-16 12:40:14.133000  7       NaN
11  2016-04-16 23:45:14.133000  5       5.000000
12  2016-05-16 08:40:14.002700  11      NaN
13  2016-05-16 23:40:14.133000  3       3.500000
14  2016-05-16 23:50:14.133000  4       3.500000
15  2016-06-16 08:40:14.002700  11      NaN
16  2016-06-16 10:30:14.002700  27      NaN
17  2016-06-16 23:25:14.133000  3       4.000000
18  2016-06-16 23:30:14.133000  5       4.000000
19  2016-07-16 08:40:14.002700  7       NaN
20  2016-07-16 11:15:14.002700  9       NaN
21  2016-07-16 23:45:14.133000  18      18.000000

这是一种繁重的方法，可能有一种更优雅，更pythonic的方法来实现，但是至少您有输出！

编辑：

在仅包含夜行的子数据帧上使用pandas.DataFrame.rolling绝对肯定有更好的方法。例如，请参见This question。

这是次优的示例：

df['night'] = (df.Time.dt.hour>22) | (df.Time.dt.hour < 6)
df['date'] = df.Time.dt.date
idx = (df.night) & (df.Time.dt.hour>22)
df.loc[idx,'date'] = df.loc[idx,'date'].values + pd.DateOffset(1)
df.date = pd.to_datetime(df.date)
df = df.set_index('date').join(df.loc[df.night].set_index('date').resample("1d").Value.mean().rolling(window=3, min_periods=1).mean(),rsuffix="_rolling_mean").reset_index()
df.drop(['night','date'],1,inplace = True)

Python Pandas：过滤数据的计算平均值

1 个答案: