在熊猫中创建虚拟变量期间drop_First = true

时间:2020-08-30 19:17:23

标签: python linear-regression

我的数据集中有几个月(1月,2月,3月等)数据,并且正在使用pandas库生成虚拟变量。 pd.get_dummies(df ['month'],drop_first = True)

我想了解在这种情况下是否应该使用drop_first = True? 为什么使用drop_first和哪种类型的变量很重要?

1 个答案:

答案 0 :(得分:0)

  • drop_first = True的使用非常重要,因为它有助于减少在创建伪变量期间创建的多余列。因此,它减少了虚拟变量之间创建的相关性。
  • 假设我们在“分类”列中有3种类型的值,我们想为该列创建虚拟变量。如果一个变量没有提供和半提供,则显然是未提供的。因此,我们不需要第三个变量来标识未布置的家具。 Example

因此,如果我们具有n级分类变量,则需要使用n-1列来表示虚拟变量。