例如,我有以下数据框:
Date Balance
2013-04-01 03:50:00 A
2013-04-01 04:00:00 A
2013-04-01 04:15:00 B
2013-04-01 04:15:00 B
2013-04-01 04:25:00 A
2013-04-01 04:25:00 A
2013-04-01 04:35:00 B
2013-04-01 04:40:00 B
2013-04-02 04:55:00 B
2013-04-02 04:56:00 A
2013-04-02 04:57:00 A
2013-04-03 10:30:00 A
2013-04-03 16:35:00 A
2013-04-03 20:40:00 A
我的目标是添加一列“计数器”,该列基本上显示A和B数量的平衡。因此,每次出现A时,计数器列都会增加一个值。每次出现B时,计数器列都会减少一个值。如果两个连续两次在同一时间(同一日期)同时出现两个A,则余额应在两行中增加两个(相同的推理适用于连续的B或同时用于A和B的情况)。因此,数据框最后看起来像这样:
Date Balance Counter
2013-04-01 03:50:00 A 1
2013-04-01 04:00:00 A 2
2013-04-01 04:15:00 B 0
2013-04-01 04:15:00 B 0
2013-04-01 04:25:00 A 2
2013-04-01 04:25:00 A 2
2013-04-01 04:35:00 B 1
2013-04-01 04:40:00 B 0
2013-04-02 04:55:00 B -1
2013-04-02 04:56:00 A 0
2013-04-02 04:57:00 A 1
2013-04-03 10:30:00 A 2
2013-04-03 16:35:00 A 3
2013-04-03 20:40:00 A 4
主要问题是数据帧具有超过200万行,因此执行循环确实很耗时。有什么办法可以实现针对此问题的矢量化方法?
编辑(我能够编译一个解决方案,如果连续行上的日期不同,则可以很好地解决此问题)。有人可以帮我找出其余的吗?
d = {'Date': ['2013-04-01 03:50:00', '2013-04-01 04:00:00','2013-04-01
04:15:00','2013-04-01 04:15:00','2013-04-01 04:25:00',
'2013-04-01 04:25:00','2013-04-01 04:35:00','2013-04-01 04:40:00','2013-04-
02 04:55:00','2013-04-02 04:56:00',
'2013-04-02 04:57:00','2013-04-03 10:30:00','2013-04-03 16:35:00','2013-04-
03 20:40:00'], 'Balance': ['A','A','B','B','A','A','B','B','B',
'A','A','A','A','A',]}
df = pd.DataFrame(data=d)
df['plus_minus'] = np.where(df.Balance == 'A', 1, -1)
df['Counter'] = df['plus_minus'].cumsum()
答案 0 :(得分:5)
一种方法是按日期分组并求和。累积的总和使您在该日期时间结束时获得净额,然后我们可以按日期重新索引以将结果广播回主框架:
df['plus_minus'] = np.where(df.Balance == 'A', 1, -1)
by_dt = df["plus_minus"].groupby(df["Date"]).sum().cumsum()
df["Counter2"] = by_dt.reindex(df.Date).values
给我
Date Balance Counter plus_minus Counter2
0 2013-04-01 03:50:00 A 1 1 1
1 2013-04-01 04:00:00 A 2 1 2
2 2013-04-01 04:15:00 B 0 -1 0
3 2013-04-01 04:15:00 B 0 -1 0
4 2013-04-01 04:25:00 A 2 1 2
5 2013-04-01 04:25:00 A 2 1 2
6 2013-04-01 04:35:00 B 1 -1 1
7 2013-04-01 04:40:00 B 0 -1 0
8 2013-04-02 04:55:00 B -1 -1 -1
9 2013-04-02 04:56:00 A 0 1 0
10 2013-04-02 04:57:00 A 1 1 1
11 2013-04-03 10:30:00 A 2 1 2
12 2013-04-03 16:35:00 A 3 1 3
13 2013-04-03 20:40:00 A 4 1 4