我有一个包含200多个分类变量(非常规)和几个连续变量的数据集。我曾尝试使用单点编码,但是这会大大增加尺寸,导致得分很低。
似乎普通的scikit-learn树只能与已转换为一键编码(对于非有序vars)的分类变量一起使用,我想是否有一种方法可以创建没有一键编码的树。我做了一些研究,发现有一个名为h2o的API可能有用,但是我试图找到一种在本地计算机上运行它的方法。
答案 0 :(得分:3)
例如,您可以从h2o.ai/downloads或pypi安装适用于python的h2o-3软件包。
h2o软件包自动有效地处理分类值。建议不要先对它们进行一次热编码。
您可以在docs.h2o.ai中找到很多文档。
答案 1 :(得分:0)
按照https://datascience.stackexchange.com/a/32623/51879
您可以使用此包装器将其他编码技术用于 scikit-learn http://contrib.scikit-learn.org/categorical-encoding/
也请查看这篇精彩的文章,以获取更多详细信息https://medium.com/data-design/visiting-categorical-features-and-encoding-in-decision-trees-53400fa65931。