Question

Python中是否有标准的方法来计算条件的意思和pandas DataFrame变量的方差？目的是测试过分散或过分散的数据，作为评估泊松或负二项模型是否最适合回归的先决条件。

围绕R生态系统扫描和交叉验证，我认为R有一些内置参数分散方法的软件包。但我无法在pandas，SciPy或StatsModels中找到Python等价物。

这是我正在使用的数据的负责人。有25,000个观察结果。

aspunet c_#     c_++    Ruby    java
0       0       0       0       6
11      0       0       0       0
0       0       7       0       0
0       0       0       9       0   
8       0       0       0       0
0       2       0       0       0
0       0       0       4       0   
0       0       0       0       6

Answer 1

conditional = [df.groupby(col_name) for col_name in df.columns]
mean        = [cond.mean() for cond in conditional]
var         = [cond.var() for cond in conditional]

用于计算条件均值和方差的Python方法？

1 个答案: