实时统计计算和熊猫

时间:2014-06-08 20:09:58

标签: python pandas data-analysis

我有通过网络进入的logging数据的实时Feed。我需要计算实时统计信息,例如我previous question中的统计信息。我该如何设计这个模块?我的意思是,每次消息到达时,继续将groupby函数应用于整个df似乎是不现实的(读取,糟糕的设计)。我可以只更新一行,其计算列可以自动更新吗?

JFYI,我正在运行另一个线程,它将打印df的读取值并每隔5秒左右打印到一个网页。

当然,我可以每5秒运行groupby-apply而不是实时运行,但我认为保持df和计算独立于打印<更好/ em>模块。

思想?

1 个答案:

答案 0 :(得分:0)

groupby非常快,如果你预先为新项目分配插槽,你可以让它更快。换句话说,尝试测量以获取合理数量的虚假数据。如果它足够快,请使用熊猫继续前进。你总是可以在以后重写它。