日期时间索引的日期偏移为“ 7d”的滚动窗口以相反的顺序排序

时间:2019-06-27 10:29:09

标签: python pandas numpy dataframe group-by

我有以下数据集,按grp(升序)然后按ts(降序)列排序:

In [49]: df
Out[49]:
    id grp         ts
0    1   A 2018-12-30
1    2   A 2018-12-23
2    3   A 2018-12-22
3    4   A 2018-12-21
4    5   B 2018-11-11
5    6   B 2018-09-09
6    7   B 2018-09-03
7    8   B 2018-09-01
8    9   B 2018-08-01
9   10   C 2018-06-20
10  11   C 2018-06-17
11  12   C 2018-06-15
12  13   D 2018-01-01

我想为每个组计算7 dasys滚动窗口中的行,其中ts(时间戳)以降序排序,这样我就可以以下所需数据集

   grp         ts count
0    A 2018-12-30    1
1    A 2018-12-23    2
2    A 2018-12-22    2
3    A 2018-12-21    3
4    B 2018-11-11    1
5    B 2018-09-09    1
6    B 2018-09-03    2
7    B 2018-09-01    2
8    B 2018-08-01    1
9    C 2018-06-20    1
10   C 2018-06-17    2
11   C 2018-06-15    3
12   D 2018-01-01    1

如果日期偏移量窗口按降序排列,则日期偏移窗口将无法正常工作:

In [56]: (df.set_index("ts")
            .groupby("grp")
            .rolling("7d", min_periods=1)
            .count()
            .reset_index()
            .rename(columns={"id":"count"}))
Out[56]:
   grp         ts  count
0    A 2018-12-30    1.0
1    A 2018-12-23    2.0
2    A 2018-12-22    3.0
3    A 2018-12-21    4.0
4    B 2018-11-11    1.0
5    B 2018-09-09    2.0
6    B 2018-09-03    3.0
7    B 2018-09-01    4.0
8    B 2018-08-01    5.0
9    C 2018-06-20    1.0
10   C 2018-06-17    2.0
11   C 2018-06-15    3.0
12   D 2018-01-01    1.0

"7d"窗口似乎被忽略了(不尊重)...

如果我按升序对索引进行排序,则将尊重"7d"窗口,但它给了我不想要的结果:

In [57]: (df.sort_values("ts")
            .set_index("ts")
            .groupby("grp")
            .rolling("7d", in_periods=1)
            .count()
            .reset_index()
            .rename(columns={"id":"count"}))
Out[57]:
   grp         ts  count
0    A 2018-12-21    1.0
1    A 2018-12-22    2.0
2    A 2018-12-23    3.0
3    A 2018-12-30    1.0
4    B 2018-08-01    1.0
5    B 2018-09-01    1.0
6    B 2018-09-03    2.0
7    B 2018-09-09    2.0
8    B 2018-11-11    1.0
9    C 2018-06-15    1.0
10   C 2018-06-17    2.0
11   C 2018-06-20    3.0
12   D 2018-01-01    1.0

问题:我们如何以有效的方式获取所需的数据集?

PS我不想使用重采样,因为我的真实数据集非常大,并且在重采样后我怀疑它是否适合内存...:(


样本数据集的设置:

import numpy as np
import pandas as pd
from pandas import Timestamp

data = np.array([
       [1, 'A', Timestamp('2018-12-30')],
       [2, 'A', Timestamp('2018-12-23')],
       [3, 'A', Timestamp('2018-12-22')],
       [4, 'A', Timestamp('2018-12-21')],
       [5, 'B', Timestamp('2018-11-11')],
       [6, 'B', Timestamp('2018-09-09')],
       [7, 'B', Timestamp('2018-09-03')],
       [8, 'B', Timestamp('2018-09-01')],
       [9, 'B', Timestamp('2018-08-01')],
       [10, 'C', Timestamp('2018-06-20')],
       [11, 'C', Timestamp('2018-06-17')],
       [12, 'C', Timestamp('2018-06-15')],
       [13, 'D', Timestamp('2018-01-01')]])

df = pd.DataFrame(data, columns=['id','grp','ts'])
df['ts'] = df['ts'].dt.floor('D')

0 个答案:

没有答案