在熊猫中drop_first的用途是什么?

时间:2019-12-03 17:14:40

标签: python pandas

下面的代码中drop_first=True的确切用途是什么?

ins = pd.get_dummies(ins, columns=['gender', 'region'], drop_first=True)

1 个答案:

答案 0 :(得分:2)

使用此功能时包括drop_first的主要原因是为了避免在变量之间产生多重共线性问题,这意味着在使用get_dummies()函数之后,回归模型可能会发现之间存在线性关系。它们,因此无法满足线性回归的Guass-Markov定理,从而导致误差和OLS不会为蓝色。

这确实是一个编码问题,但是引人注意的是更多的统计/数据科学/交叉验证。因此,我建议您检查一下该答案和/或也去问一下:https://stats.stackexchange.com/questions/224051/one-hot-vs-dummy-encoding-in-scikit-learn/224055#224055