我正在尝试从以下DataFrame中获取每日状态计数(它是一个子集,真实数据集是~14k个具有重叠日期的作业,在作业中的任何给定时间只有一个状态):
Job Status User
Date / Time
1/24/2011 10:58:04 1 A Ted
1/24/2011 10:59:20 1 C Bill
2/11/2011 6:53:14 1 A Ted
2/11/2011 6:53:23 1 B Max
2/15/2011 9:43:13 1 C Bill
2/21/2011 15:24:42 1 F Jim
3/2/2011 15:55:22 1 G Phil Jr.
3/4/2011 14:57:45 1 H Ted
3/7/2011 14:11:02 1 I Jim
3/9/2011 9:57:34 1 J Tim
8/18/2014 11:59:35 2 A Ted
8/18/2014 13:56:21 2 F Bill
5/21/2015 9:30:30 2 G Jim
6/5/2015 13:17:54 2 H Jim
6/5/2015 14:40:38 2 I Ted
6/9/2015 10:39:15 2 J Tom
1/16/2015 7:45:58 3 A Phil Jr.
1/16/2015 7:48:23 3 C Jim
3/6/2015 14:09:42 3 A Bill
3/11/2015 11:16:04 3 K Jim
我最初的想法(来自以下链接)是对作业列进行分组,填写每个组的缺失日期,然后填写状态。
Pandas reindex dates in Groupby
我能够完成这项工作......有点......如果在同一天发生了两种状态,一种情况不会包含在输出中,因此缺少一些状态。
然后我发现以下内容,它应该处理重复的问题,但我无法使用它来处理我的数据。
Efficiently re-indexing one level with "forward-fill" in a multi-index dataframe
我是否正确地认为填写缺失的日期然后填写状态是最终捕获每日状态的正确方法?还有另一种方法可以更好地使用我丢失的熊猫功能吗?