我正在处理仅具有只有两个值的类别变量/特征的不同数据集,例如( temperature ='low'和'high')或(< strong> light ='on'和'off'或'0'和'1')。
我不确定是否要使用“一次性编码” 或“标签编码” 方法来训练我的模型。 我正在研究分类问题,并使用一些监督的机器学习算法。
我使用了“标签编码” ,并且得到了不错的结果。我觉得可能我做错了什么。我不确定是否应该使用“一次性编码” 。
如果分类变量只有两个值,我应该使用哪种方法转换变量?
答案 0 :(得分:0)
在少数情况下,由于常规问题,LabelEncoder很有用。如果您的分类特征是序数,则使用LabelEncoder,否则使用One-hot编码。但是,一键式编码会增加尺寸。在这种情况下,我通常采用One-hot编码,然后使用PCA进行降维。