如何知道何时需要使用pd.get_dummies?

时间:2019-04-15 11:20:53

标签: python dummy-variable

我使用pd.get_dummies,我想知道:在哪种情况下我们可以使用它?

我将其用于逻辑回归,但我通常会知道。

为您展示一个示例,我在两种情况下都建立了模型,我获得了以下结果:

这是我使用pd.get_dummies时的系数(不是全部,我只向您展示分类系数)

http://image.noelshack.com/fichiers/2019/16/1/1555326598-dummy.png

(我知道您可以通过变量删除一个模态,因为共线性,我只是跳过了那一遍,因为那不是重点)

就像您看到的那样,很容易解释,您可以使奇数比,比较模态等。但是它增加了很多功能

这是我不使用pd.get_dummies时的系数

http://image.noelshack.com/fichiers/2019/16/1/1555326863-sans-dummy.png

曾经有人告诉我,机器学习中的软件包可以自己提供虚拟对象。但这似乎并非如此。也许我做错了什么?

在这里,我曾经做过的那段代码:

from sklearn.linear_model import LogisticRegression
logit = LogisticRegression( penalty ='l1') 
titan_logit=logit.fit(T2_train, z2_train)

coefficients = pd.concat([pd.DataFrame(T2_train.columns),pd.DataFrame(np.transpose(titan_logit.coef_))], axis = 1)

因此,当我需要使用pd.get_dummies和不需要时,我感到困惑。

对我来说,没有哑元的系数不如使用pd.get_dummies时有用。但是使用pd.get_dummies,您可以添加更多变量。

有什么建议吗?澄清吗?

0 个答案:

没有答案