频率不同于计算窗口的分组操作

时间:2019-07-16 12:16:38

标签: python pandas feature-engineering

我有一个包含2列的数据框:cat,time和value。我想为每行计算前一天的平均价格,例如该猫的60分钟。但不完全是这样:我想每10分钟计算一次平均值。

例如,假设我正在查看一个观测值(猫,时间,值)=(10,10:34,x)。对于该观察,我想检索cat = 10且时间在9:30到10:30之间的值的平均值。同样,如果时间是11:59,我会在10:50和11:50之间看。

直到现在我一直在尝试:

  1. 使用groupby计算每10分钟的平均值和计数。合并回原始数据帧时,请移动时间仓使其超过数据。
  2. 第二组,在过去60分钟内使用rolling weighted average
  3. 使用10分钟的垃圾箱和cat作为键,合并到原始数据框。
  4. Mistake:第一个groupby并不包含所有bin,因此当我合并回原始df时,很多bin中都没有数据。
  5. 解决方案:在步骤1中人为地创建所有组合(cat,time_bin)。问题:过多的计算和内存。

0 个答案:

没有答案