我希望在一些具有大量分类变量的数据上使用Python进行多元线性回归或Logistic回归。我理解,使用一个分类变量,我需要将其转换为虚拟对象,然后删除一种类型的虚拟对象,以避免共线性,但是在处理多种类型的分类变量时,是否有人熟悉该方法应该是什么? / p>
我是否为每个人做同样的事情?例如,将每种类型的记录转换为虚拟变量,然后为每个删除一个虚拟变量以避免共线性?
答案 0 :(得分:1)
如果有许多分类变量,并且在这些变量中,如果有很多级别,使用虚拟变量可能不是一个好的选择。
如果分类变量具有二进制形式的数据,例如,具有age
形式数据的变量10-18, 18-30, 31-50, ...
,您可以使用标签编码或使用均值/中值创建新的数字特征箱子或为低年龄和高年龄创造两个特征
如果您有从启动任务到结束的时间戳,例如,机器的启动时间到机器停止的时间,您可以通过计算小时或分钟的持续时间来创建新功能。
鉴于许多分类变量但级别较少,在这种情况下明显且唯一的出路是对分类变量应用单热编码。
但是当分类变量有很多级别时,某些情况可能会过于罕见或过于频繁。对此类数据应用单热编码会严重影响模型性能。在这种情况下,建议应用某些业务逻辑/功能工程,从而首先减少级别数。此后,如果新功能仍属于分类,则可以对其使用One-Hot Encoding。
答案 1 :(得分:0)
如果需要为虚拟对象替换多个分类变量。方法应该是为虚拟对每个变量进行编码(如单个分类变量的情况),然后删除每个变量存在的每个虚拟对象的一个实例,以避免共线性。
基本上,每个分类变量应该被视为单个变量。