Pandas函数pandas.get_dummies()
返回具有 k 个级别的分类变量
drop_first = False
,drop_first = True
两者都包含相同的信息,因为当观察值不是 k -1级别中的任何一个时,它就是剩余级别。
我已经读到sklearn的Regression和其他模型需要使用伪编码,即 k -1伪变量(如果使用它们的默认参数)。但是,pandas.get_dummies()
中的默认设置为drop_first = False
。有这个原因吗?