有关无层次结构的数字分类数据处理的问题

时间:2019-10-24 14:28:03

标签: python pandas encoding hierarchy

我正在处理包含19个要素的数据集。其中七个是名义类别特征,所有这些特定特征都具有很高的基数(某些特征仅包含5-30个唯一值,但在多种情况下,则存在成百上千个唯一值)。我知道对于大多数机器学习算法,必须对基于文本的分类数据进行编码。但是,如果功能是分类的,但已经是数字的,我也应该对它们进行编码吗?

可能不是必需的,但示例如下:

error code
    23
    404
    6
    ....
    1324
    500

就维度而言,不通过任何方式对该列进行编码肯定会更好,但是可以存在有限数量的错误代码,并且它们没有层次结构。我担心的是,由于不进行编码,我将固有的层次结构保留在python或pandas中的默认位置,因此会在数据集中造成偏差。我有一种必须编码的感觉,但是通过一键编码对所有这七个功能进行编码会使我从19个特征增加到14k以上。 (这与这个问题无关,但是我也在研究哈希编码,但是我很难解决这个问题。)

是否有人愿意回答奖励问题:如果我正在检查大量机器中弹出的错误代码,并且想考虑机器的制造年份,那就是数字值还是绝对值?值是有限的(第一年公司开始生产机器到本年),所以我猜这种情况是分类的吗?

0 个答案:

没有答案