Python中是否有标准的方法来计算条件的意思和pandas DataFrame变量的方差?目的是测试过分散或过分散的数据,作为评估泊松或负二项模型是否最适合回归的先决条件。
围绕R生态系统扫描和交叉验证,我认为R有一些内置参数分散方法的软件包。但我无法在pandas,SciPy或StatsModels中找到Python等价物。
这是我正在使用的数据的负责人。有25,000个观察结果。
aspunet c_# c_++ Ruby java
0 0 0 0 6
11 0 0 0 0
0 0 7 0 0
0 0 0 9 0
8 0 0 0 0
0 2 0 0 0
0 0 0 4 0
0 0 0 0 6
答案 0 :(得分:2)
conditional = [df.groupby(col_name) for col_name in df.columns]
mean = [cond.mean() for cond in conditional]
var = [cond.var() for cond in conditional]