我有一个数据框,其中所有列都是分类的。在其中一些类别列中,有一些列,每个类别内的数据都有顺序。
例如在A栏中:博士学位,MSC学位,学士学位(博士学位高于MSC,而MSC高于学士学位)
但是还有其他一些没有顺序的列。
例如在B栏中:男性,女性,其他
如果我们对所有列进行一次热编码,则意味着列中数据之间的顺序无关紧要。 如果我们用带有标签编码器的顺序对列进行编码而没有使用一种热编码的顺序对列进行编码怎么办? 可以在一个数据帧中实现两种编码方法吗?
对于带有标签编码器的A列,我们将得到:2,1,0
对于具有一种热编码的B列,我们将有:0到1之间的3列