我有以下数据集,按grp
(升序)然后按ts
(降序)列排序:
In [49]: df
Out[49]:
id grp ts
0 1 A 2018-12-30
1 2 A 2018-12-23
2 3 A 2018-12-22
3 4 A 2018-12-21
4 5 B 2018-11-11
5 6 B 2018-09-09
6 7 B 2018-09-03
7 8 B 2018-09-01
8 9 B 2018-08-01
9 10 C 2018-06-20
10 11 C 2018-06-17
11 12 C 2018-06-15
12 13 D 2018-01-01
我想为每个组计算7 dasys
滚动窗口中的行,其中ts
(时间戳)以降序排序,这样我就可以以下所需数据集:
grp ts count
0 A 2018-12-30 1
1 A 2018-12-23 2
2 A 2018-12-22 2
3 A 2018-12-21 3
4 B 2018-11-11 1
5 B 2018-09-09 1
6 B 2018-09-03 2
7 B 2018-09-01 2
8 B 2018-08-01 1
9 C 2018-06-20 1
10 C 2018-06-17 2
11 C 2018-06-15 3
12 D 2018-01-01 1
如果日期偏移量窗口按降序排列,则日期偏移窗口将无法正常工作:
In [56]: (df.set_index("ts")
.groupby("grp")
.rolling("7d", min_periods=1)
.count()
.reset_index()
.rename(columns={"id":"count"}))
Out[56]:
grp ts count
0 A 2018-12-30 1.0
1 A 2018-12-23 2.0
2 A 2018-12-22 3.0
3 A 2018-12-21 4.0
4 B 2018-11-11 1.0
5 B 2018-09-09 2.0
6 B 2018-09-03 3.0
7 B 2018-09-01 4.0
8 B 2018-08-01 5.0
9 C 2018-06-20 1.0
10 C 2018-06-17 2.0
11 C 2018-06-15 3.0
12 D 2018-01-01 1.0
"7d"
窗口似乎被忽略了(不尊重)...
如果我按升序对索引进行排序,则将尊重"7d"
窗口,但它给了我不想要的结果:
In [57]: (df.sort_values("ts")
.set_index("ts")
.groupby("grp")
.rolling("7d", in_periods=1)
.count()
.reset_index()
.rename(columns={"id":"count"}))
Out[57]:
grp ts count
0 A 2018-12-21 1.0
1 A 2018-12-22 2.0
2 A 2018-12-23 3.0
3 A 2018-12-30 1.0
4 B 2018-08-01 1.0
5 B 2018-09-01 1.0
6 B 2018-09-03 2.0
7 B 2018-09-09 2.0
8 B 2018-11-11 1.0
9 C 2018-06-15 1.0
10 C 2018-06-17 2.0
11 C 2018-06-20 3.0
12 D 2018-01-01 1.0
问题:我们如何以有效的方式获取所需的数据集?
?PS我不想使用重采样,因为我的真实数据集非常大,并且在重采样后我怀疑它是否适合内存...:(
样本数据集的设置:
import numpy as np
import pandas as pd
from pandas import Timestamp
data = np.array([
[1, 'A', Timestamp('2018-12-30')],
[2, 'A', Timestamp('2018-12-23')],
[3, 'A', Timestamp('2018-12-22')],
[4, 'A', Timestamp('2018-12-21')],
[5, 'B', Timestamp('2018-11-11')],
[6, 'B', Timestamp('2018-09-09')],
[7, 'B', Timestamp('2018-09-03')],
[8, 'B', Timestamp('2018-09-01')],
[9, 'B', Timestamp('2018-08-01')],
[10, 'C', Timestamp('2018-06-20')],
[11, 'C', Timestamp('2018-06-17')],
[12, 'C', Timestamp('2018-06-15')],
[13, 'D', Timestamp('2018-01-01')]])
df = pd.DataFrame(data, columns=['id','grp','ts'])
df['ts'] = df['ts'].dt.floor('D')