我可以使用pandas分类变量作为statsmodels公式的左侧吗?

时间:2018-06-25 19:19:51

标签: python pandas logistic-regression statsmodels

我有一个具有以下dtypes的数据框

strata_id    category
treatment    category
status       category
dtype: object

我正在尝试使用statsmodels公式api来拟合逻辑回归

import statsmodels.formula.api as smf
model = smf.logit('status ~ 0 + strata_id + treatment', data=df)

调用model.fit()时出现错误,因为公式api(由patsy提供支持)将我的分类status列转换为(N,2)个单热编码矢量数组,但是statsmodels需要一个(N,)个整数数组。

我知道有很多方法可以解决此问题,例如直接使用patsy生成设计矩阵,并在将矩阵提供给statsmodels之前对其进行预处理。

但是,有没有办法使statsmodels公式api在这里做正确的事情?

Python 3.6.4
熊猫0.23.0
统计模型0.5.0

0 个答案:

没有答案