我使用pd.get_dummies,我想知道:在哪种情况下我们可以使用它?
我将其用于逻辑回归,但我通常会知道。
为您展示一个示例,我在两种情况下都建立了模型,我获得了以下结果:
这是我使用pd.get_dummies时的系数(不是全部,我只向您展示分类系数)
http://image.noelshack.com/fichiers/2019/16/1/1555326598-dummy.png
(我知道您可以通过变量删除一个模态,因为共线性,我只是跳过了那一遍,因为那不是重点)
就像您看到的那样,很容易解释,您可以使奇数比,比较模态等。但是它增加了很多功能
这是我不使用pd.get_dummies时的系数
http://image.noelshack.com/fichiers/2019/16/1/1555326863-sans-dummy.png
曾经有人告诉我,机器学习中的软件包可以自己提供虚拟对象。但这似乎并非如此。也许我做错了什么?
在这里,我曾经做过的那段代码:
from sklearn.linear_model import LogisticRegression
logit = LogisticRegression( penalty ='l1')
titan_logit=logit.fit(T2_train, z2_train)
coefficients = pd.concat([pd.DataFrame(T2_train.columns),pd.DataFrame(np.transpose(titan_logit.coef_))], axis = 1)
因此,当我需要使用pd.get_dummies和不需要时,我感到困惑。
对我来说,没有哑元的系数不如使用pd.get_dummies时有用。但是使用pd.get_dummies,您可以添加更多变量。
有什么建议吗?澄清吗?