scikit的一个热门编码如何分配假人?

时间:2016-12-26 23:47:33

标签: python scikit-learn one-hot-encoding

对于研究论文,我将使用套索模型来执行分类和特征选择。我准备使用单热编码来处理我的分类数据,并且需要确定哪个特征映射到原始分类值,以确定最终为最终模型选择哪些特征。我一直在谷歌上搜索这个问题,但还没找到答案。

scikit的单热编码如何赋值?例如,假设某个变量的分类值为{1,2,3,4}。单热编码是否按时间顺序将它们组织成虚拟对象(即,丢弃1,使第一个虚拟值为值2,第二个虚拟值为值3,第三个虚拟值为值4?或者根据它找到的顺序进行分配不同的分类值,因为它向下扫描行(例如,第一个观察值为3,第二个观察值为2,因此3被删除,第一个虚拟值变为值2)?

谢谢!

1 个答案:

答案 0 :(得分:1)

从快速查看the source我觉得它们最终按整数值排序。但是,由于没有记录,您不能指望这一点:它不是合同的一部分。如果您需要知道哪个值最终我建议编写您自己的OneHot实现。不应该太难,然后在升级到新版本等时可以依赖它。