在Poisson回归中修复'TypeError'(使用Python)

时间:2017-08-21 12:03:39

标签: python statistics regression poisson dummy-variable

我在Python中运行泊松回归,它抛出以下错误:

  

TypeError:from_formula()至少需要4个参数(给定3个)

我该如何解决?我的代码如下:

from statsmodels.genmod.generalized_estimating_equations import GEE
from statsmodels.genmod.cov_struct import (Exchangeable,
    Independence,Autoregressive) 
from statsmodels.genmod.families import Poisson

# 'df' is the dataframe containing all the data
f1 = "net_unique_bids ~ city1 + city2 + city3 + city4 + item_category1 + item_category2 + item_category3 + item_condition1 + item_condition2 + item_condition3 + asking_price + description_char_count + num_of_photos" 
model1 = GEE.from_formula(formula=f1, data=df, cov_struct=Independence(), family=Poisson())

背景:我在我的拍卖网站中对收到的出价(因变量)进行建模,其功能包括city(分类),item_category(分类),{{ 1}}(连续),asking_price(连续)等。

我的总体目标是找出哪些功能对收到的出价影响最大。通过这种方式,我可以将精力集中在改进最重要的功能上。

1 个答案:

答案 0 :(得分:1)

从文档中,模型定义的语法应遵循:

def from_formula(cls, formula, groups, data, subset=None, 
                time=None, offset=None, exposure=None, *args, **kwargs): 

您没有指定组,因此会抛出错误。

  
    

groups:array-like或string分组标签数组。如果是字符串,则这是包含分组标签的数据中变量的名称。

  

您可以尝试使用数据框的索引进行分组吗? :/否则,使用您正在查看的城市的ID将数据分成四组以进行回归;这需要将city1 ... city4排除在公式之外。我不太清楚什么适合你的需要..