是否可以在Python / Scikit-learn GLM模型中使用分类变量?我确实意识到了单热编码的替代方案。我对这种方法的问题是我无法测试整个变量的重要性。我只能测试编码变量(部分)。
为什么SAS可以处理这样的变量而不是Python?请指教。
答案 0 :(得分:2)
它实际上取决于您拥有的数据。例如,如果您可以为分类变量(序数值)分配某种顺序,例如low
,medium
和high
,则可以为它们分配1,2和3等数字。但是,如果没有任何顺序,它会变得有点棘手。除了One-hot Encoding,您还可以尝试Helmert Coding Scheme。您还可以阅读this blog post以获取更多分析。 sklearn中还有各种其他编码方案用于分类变量:
您可以阅读有关其他Categorical Encoders in Sklearn here的更多信息。