Python / Scikitlearn中的分类变量,没有单热编码

时间:2017-09-13 19:42:09

标签: python machine-learning scikit-learn categorical-data

是否可以在Python / Scikit-learn GLM模型中使用分类变量?我确实意识到了单热编码的替代方案。我对这种方法的问题是我无法测试整个变量的重要性。我只能测试编码变量(部分)。

为什么SAS可以处理这样的变量而不是Python?请指教。

1 个答案:

答案 0 :(得分:2)

它实际上取决于您拥有的数据。例如,如果您可以为分类变量(序数值)分配某种顺序,例如lowmediumhigh,则可以为它们分配1,2和3等数字。但是,如果没有任何顺序,它会变得有点棘手。除了One-hot Encoding,您还可以尝试Helmert Coding Scheme。您还可以阅读this blog post以获取更多分析。 sklearn中还有各种其他编码方案用于分类变量:

您可以阅读有关其他Categorical Encoders in Sklearn here的更多信息。