我是machine learning
的新手,我的问题是:
如果包含三个类,我们是否需要对因变量 y进行编码 1,2,3 段,我想知道是否需要对 不包含因变量时
答案 0 :(得分:0)
如果单个变量有k
个类,则OneHotEncoder将创建k
列数。
例如:如果该数据集中的性别值为2
,它将创建Male/Female
个变量,
如果性别值为3
male/Female/PreferNotToSay
变量
现在,您不希望谓词y
中包含多个变量,所以最好使用LabelEncoder
(来自sklearn.preprocessing)或保持维数完整的某种机制。
答案 1 :(得分:0)
在您的情况下,我没有清楚地得到什么因变量。
以下是一种热编码的示例:
之前:
name gender
a M
b F
c O
之后
name M F O
a 1 0 0
b 0 1 0
c 0 0 1