我在说明数据格式时遇到的麻烦而又不使事情复杂化。因此,请允许我,因为我想从以下屏幕快照开始,仅用于解释问题(即数据不采用这种形式):
我想标识过去14天中所有垃圾箱中的数字> 0(也就是总行的值大于0)。这将包括除第5天和第12天(以红色突出显示)以外的所有日期。然后,我想对这14天中的各个垃圾箱进行水平求和(也就是按垃圾箱的预期,全天总和为5天和12天),目的是最终通过垃圾箱数计算出14天的平均值。
请注意,上面的示例适用于一个“车道”,其中我的数据大于10,000。该示例还仅说明了今天是第16天。但是我想将此逻辑应用于数据集中的每一天。即在第20天(以及其他任何日期),它将查看过去14天中所有bin的值,然后使用该数据范围在Bin中进行汇总。这是数据外观的屏幕截图示例:
使用结构化数据的简单示例,仅具有3个Bins,1个泳道和3个数据点/日期回溯:
Lane Date Bin KG
AMS-ORD 2018-08-26 3 10
AMS-ORD 2018-08-29 1 25
AMS-ORD 2018-08-30 2 30
AMS-ORD 2018-09-03 2 20
AMS-ORD 2018-09-04 1 40
注意KG这是一笔款项。同样,这是一天(今天)的日子,但是我希望数据集中的每个日期都遵循相同的逻辑。输出如下所示:
Lane Date Bin KG Average
AMS-ORD 2018-09-04 1 40 13.33
AMS-ORD 2018-09-04 2 50 16.67
AMS-ORD 2018-09-04 3 0 -
我已经弄乱了.rolling(14).mean()、. tail()和其他一些东西。我遇到的问题是为正确的Bin聚合指定正确的日期范围。