我们知道,在数据挖掘中,我们经常需要使用一热编码来对分类特征进行编码,因此,一个分类特征将被编码为几个“ 0/1”特征。
有一个特殊情况使我感到困惑: 现在,我的数据集中有一个分类特征和一个数值特征。我将该分类特征编码为300个新的“ 0/1”特征,然后使用MinMaxScaler将数值特征归一化,因此我所有的特征值都在0到0之间。 1.但是可疑的现象是分类特征与数字特征的比率似乎从1:1变为300:1。
我的编码方法正确吗?这使我对单热编码感到怀疑,我认为这可能会导致功能不平衡的问题。
有人能告诉我真相吗?任何词将不胜感激!谢谢!!!
答案 0 :(得分:1)
由于每条记录只有一个类别,因此其中只有一个将是1。
有效地,通过这种预处理,分类特征的权重将仅是标准化特征的权重的约2倍。 (如果考虑距离和两个不同类别的对象,则为2次。)但是从本质上讲您是对的:一键编码并不是特别聪明。使程序在其不支持的数据上运行是一个丑陋的黑客。当使用诸如k-means之类的算法时,情况变得更糟,假设我们可以采用 mean ,并且需要最小化这些变量的 squared 误差...结果将是有限的。