我需要在分类数据上构建决策树。 我知道scikit-learn只能处理数值,推荐的方法是使用on-hot编码,最好使用Panda Dummies。
因此,我构建了一个样本数据集,其中所有属性和标签都是分类的。在这个阶段,我试着去了解如何一个人的热点'编码,以便能够使用sklearn,但文档没有解决这种情况。
最终可以给我一个快速示例或链接到初学者的一些材料吗?
答案 0 :(得分:0)
根据我的测试,One-hot编码导致连续变量(在我的情况下,金额)被赋予了更高的特征重要性。
此外,单个级别的分类变量必须满足非常高的条形才能被选择在树木建筑的早期拆分。这显然会降低预测性能(不幸的是,我没有看到任何帖子中提到的这种后果)。
我会研究其他方法。