python - Python / Scikitlearn中的分类变量，没有单热编码

Python / Scikitlearn中的分类变量，没有单热编码

时间：2017-09-13 19:42:09

标签： python machine-learning scikit-learn categorical-data

是否可以在Python / Scikit-learn GLM模型中使用分类变量？我确实意识到了单热编码的替代方案。我对这种方法的问题是我无法测试整个变量的重要性。我只能测试编码变量（部分）。

为什么SAS可以处理这样的变量而不是Python？请指教。

1 个答案:

答案 0 :(得分：2)

它实际上取决于您拥有的数据。例如，如果您可以为分类变量（序数值）分配某种顺序，例如low，medium和high，则可以为它们分配1,2和3等数字。但是，如果没有任何顺序，它会变得有点棘手。除了One-hot Encoding，您还可以尝试Helmert Coding Scheme。您还可以阅读this blog post以获取更多分析。 sklearn中还有各种其他编码方案用于分类变量：

您可以阅读有关其他Categorical Encoders in Sklearn here的更多信息。