应用错误收集

实时统计计算和熊猫

时间：2014-06-08 20:09:58

标签： python pandas data-analysis

我有通过网络进入的logging数据的实时Feed。我需要计算实时统计信息，例如我previous question中的统计信息。我该如何设计这个模块？我的意思是，每次消息到达时，继续将groupby函数应用于整个df似乎是不现实的（读取，糟糕的设计）。我可以只更新一行，其计算列可以自动更新吗？

JFYI，我正在运行另一个线程，它将打印df的读取值并每隔5秒左右打印到一个网页。

当然，我可以每5秒运行groupby-apply而不是实时运行，但我认为保持df和计算独立于打印<更好/ em>模块。

思想？

1 个答案:

答案 0 :(得分：0)

groupby非常快，如果你预先为新项目分配插槽，你可以让它更快。换句话说，尝试并测量以获取合理数量的虚假数据。如果它足够快，请使用熊猫继续前进。你总是可以在以后重写它。

相关问题

递归ewma计算和比较

效果大小计算

统计计算

实时统计计算和熊猫

实时javascript计算

计算熊猫数据帧中不同事件的每小时和2小时移动平均值

方差函数方程的计算

Python Pandas - 手动分位数计算

熊猫方差和标准差结果与手动计算不同

使用两个数据框计算熊猫百分比

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？