下面的代码中drop_first=True
的确切用途是什么?
ins = pd.get_dummies(ins, columns=['gender', 'region'], drop_first=True)
答案 0 :(得分:2)
使用此功能时包括drop_first
的主要原因是为了避免在变量之间产生多重共线性问题,这意味着在使用get_dummies()
函数之后,回归模型可能会发现之间存在线性关系。它们,因此无法满足线性回归的Guass-Markov定理,从而导致误差和OLS不会为蓝色。
这确实是一个编码问题,但是引人注意的是更多的统计/数据科学/交叉验证。因此,我建议您检查一下该答案和/或也去问一下:https://stats.stackexchange.com/questions/224051/one-hot-vs-dummy-encoding-in-scikit-learn/224055#224055