对于我经营的拍卖网站,我的目的是找出哪些功能对收到的出价影响最大。通过这种方式,我可以将精力集中在改进最重要的功能上。
为了这个目的,我已advised进行泊松回归分析。这个问题是关于为回归准备数据,然后运行实际的回归。我为此目的使用Python。 数据:数据集包含仅持续7天的拍卖。有连续和分类功能的混合。连续的是asking_price
,description_char_count
和num_of_photos
。
分类变量为city
,item_category
和item_condition
。
因变量为net_unique_bids
。
如何处理分类变量?
虚拟变量:如果我错了,请纠正我 - 但我认为我需要执行以下操作:
# convert categorical columns
cities = pd.get_dummies(df['city'], drop_first=True)
categ = pd.get_dummies(df['item_category'], drop_first=True)
cond = pd.get_dummies(df['item_condition'], drop_first=True)
# add to main dataframe 'df'
df = pd.concat([df,cities,categ, cond], axis=1)
# remove original categorical columns
df.drop('city',axis=1, inplace=True)
df.drop('item_category',axis=1, inplace=True)
df.drop('item_condition',axis=1, inplace=True)
运行泊松回归:如果到目前为止这是正确的,接下来的步骤需要:
from statsmodels.genmod.generalized_estimating_equations import GEE
from statsmodels.genmod.cov_struct import (Exchangeable,
Independence,Autoregressive)
from statsmodels.genmod.families import Poisson
f1 = "net_unique_bids ~ city1 + city2 + city3 + city4 + item_category1 + item_category2 + item_category3 + item_condition1 + item_condition2 + item_condition3 + asking_price + description_char_count + num_of_photos"
model1 = GEE.from_formula(formula=f1, data=df, cov_struct=Independence(), family=Poisson())
我是否对如何处理分类变量有正确的想法?我是否正确运行Poission回归(并且我还正确地制定了f1
)?
如果没有,请帮助我填补空白。
注意:我从here获得了Python中Poisson回归的指导。