Question

我有以下数据集，按grp（升序）然后按ts（降序）列排序：

In [49]: df
Out[49]:
    id grp         ts
0    1   A 2018-12-30
1    2   A 2018-12-23
2    3   A 2018-12-22
3    4   A 2018-12-21
4    5   B 2018-11-11
5    6   B 2018-09-09
6    7   B 2018-09-03
7    8   B 2018-09-01
8    9   B 2018-08-01
9   10   C 2018-06-20
10  11   C 2018-06-17
11  12   C 2018-06-15
12  13   D 2018-01-01

我想为每个组计算7 dasys滚动窗口中的行，其中ts（时间戳）以降序排序，这样我就可以以下所需数据集：

   grp         ts count
0    A 2018-12-30    1
1    A 2018-12-23    2
2    A 2018-12-22    2
3    A 2018-12-21    3
4    B 2018-11-11    1
5    B 2018-09-09    1
6    B 2018-09-03    2
7    B 2018-09-01    2
8    B 2018-08-01    1
9    C 2018-06-20    1
10   C 2018-06-17    2
11   C 2018-06-15    3
12   D 2018-01-01    1

如果日期偏移量窗口按降序排列，则日期偏移窗口将无法正常工作：

In [56]: (df.set_index("ts")
            .groupby("grp")
            .rolling("7d", min_periods=1)
            .count()
            .reset_index()
            .rename(columns={"id":"count"}))
Out[56]:
   grp         ts  count
0    A 2018-12-30    1.0
1    A 2018-12-23    2.0
2    A 2018-12-22    3.0
3    A 2018-12-21    4.0
4    B 2018-11-11    1.0
5    B 2018-09-09    2.0
6    B 2018-09-03    3.0
7    B 2018-09-01    4.0
8    B 2018-08-01    5.0
9    C 2018-06-20    1.0
10   C 2018-06-17    2.0
11   C 2018-06-15    3.0
12   D 2018-01-01    1.0

"7d"窗口似乎被忽略了（不尊重）...

如果我按升序对索引进行排序，则将尊重"7d"窗口，但它给了我不想要的结果：

In [57]: (df.sort_values("ts")
            .set_index("ts")
            .groupby("grp")
            .rolling("7d", in_periods=1)
            .count()
            .reset_index()
            .rename(columns={"id":"count"}))
Out[57]:
   grp         ts  count
0    A 2018-12-21    1.0
1    A 2018-12-22    2.0
2    A 2018-12-23    3.0
3    A 2018-12-30    1.0
4    B 2018-08-01    1.0
5    B 2018-09-01    1.0
6    B 2018-09-03    2.0
7    B 2018-09-09    2.0
8    B 2018-11-11    1.0
9    C 2018-06-15    1.0
10   C 2018-06-17    2.0
11   C 2018-06-20    3.0
12   D 2018-01-01    1.0

问题：我们如何以有效的方式获取所需的数据集？

？

PS我不想使用重采样，因为我的真实数据集非常大，并且在重采样后我怀疑它是否适合内存...：（

样本数据集的设置：

import numpy as np
import pandas as pd
from pandas import Timestamp

data = np.array([
       [1, 'A', Timestamp('2018-12-30')],
       [2, 'A', Timestamp('2018-12-23')],
       [3, 'A', Timestamp('2018-12-22')],
       [4, 'A', Timestamp('2018-12-21')],
       [5, 'B', Timestamp('2018-11-11')],
       [6, 'B', Timestamp('2018-09-09')],
       [7, 'B', Timestamp('2018-09-03')],
       [8, 'B', Timestamp('2018-09-01')],
       [9, 'B', Timestamp('2018-08-01')],
       [10, 'C', Timestamp('2018-06-20')],
       [11, 'C', Timestamp('2018-06-17')],
       [12, 'C', Timestamp('2018-06-15')],
       [13, 'D', Timestamp('2018-01-01')]])

df = pd.DataFrame(data, columns=['id','grp','ts'])
df['ts'] = df['ts'].dt.floor('D')

日期时间索引的日期偏移为“ 7d”的滚动窗口以相反的顺序排序

0 个答案: