使用分类变量运行泊松回归(使用Python)

时间:2017-08-17 12:03:41

标签: python statistics regression poisson

对于我经营的拍卖网站,我的目的是找出哪些功能对收到的出价影响最大。通过这种方式,我可以将精力集中在改进最重要的功能上。

为了这个目的,我已advised进行泊松回归分析。这个问题是关于为回归准备数据,然后运行实际的回归。我为此目的使用Python。

数据:数据集包含仅持续7天的拍卖。有连续和分类功能的混合。连续的是asking_pricedescription_char_countnum_of_photos

分类变量为cityitem_categoryitem_condition

因变量为net_unique_bids

如何处理分类变量?

虚拟变量:如果我错了,请纠正我 - 但我认为我需要执行以下操作:

# convert categorical columns
cities = pd.get_dummies(df['city'], drop_first=True)
categ = pd.get_dummies(df['item_category'], drop_first=True)
cond = pd.get_dummies(df['item_condition'], drop_first=True)

# add to main dataframe 'df'
df = pd.concat([df,cities,categ, cond], axis=1)

# remove original categorical columns
df.drop('city',axis=1, inplace=True)
df.drop('item_category',axis=1, inplace=True)
df.drop('item_condition',axis=1, inplace=True)

运行泊松回归:如果到目前为止这是正确的,接下来的步骤需要:

from statsmodels.genmod.generalized_estimating_equations import GEE
from statsmodels.genmod.cov_struct import (Exchangeable,
    Independence,Autoregressive)
from statsmodels.genmod.families import Poisson

f1 = "net_unique_bids ~ city1 + city2 + city3 + city4 + item_category1 + item_category2 + item_category3 + item_condition1 + item_condition2 + item_condition3 + asking_price + description_char_count + num_of_photos"
model1 = GEE.from_formula(formula=f1, data=df, cov_struct=Independence(), family=Poisson())

我是否对如何处理分类变量有正确的想法?我是否正确运行Poission回归(并且我还正确地制定了f1)?

如果没有,请帮助我填补空白。

注意:我从here获得了Python中Poisson回归的指导。

0 个答案:

没有答案