我有通过网络进入的logging
数据的实时Feed。我需要计算实时统计信息,例如我previous question中的统计信息。我该如何设计这个模块?我的意思是,每次消息到达时,继续将groupby
函数应用于整个df
似乎是不现实的(读取,糟糕的设计)。我可以只更新一行,其计算列可以自动更新吗?
JFYI,我正在运行另一个线程,它将打印df
的读取值并每隔5秒左右打印到一个网页。
当然,我可以每5秒运行groupby-apply
而不是实时运行,但我认为保持df和计算独立于打印<更好/ em>模块。
思想?
答案 0 :(得分:0)
groupby
非常快,如果你预先为新项目分配插槽,你可以让它更快。换句话说,尝试并测量以获取合理数量的虚假数据。如果它足够快,请使用熊猫继续前进。你总是可以在以后重写它。