如何在建立ML模型中使用有序的类别变量?

时间:2018-11-19 05:06:52

标签: machine-learning logistic-regression

我正在尝试建立逻辑回归模型,并且我的许多功能对分类变量进行了排序。我认为虚拟变量可能没有用,因为它以相等的权重对待每个类别。那么,我是否需要像数字那样对待有序的分类变量?

谢谢。

1 个答案:

答案 0 :(得分:1)

排序的分类值在数据挖掘中被称为“ 序号”属性,其中一个值小于或大于另一个值。您可以将这些值视为标称值或连续值(数字)。 将它们视为数字(连续)的一些优缺点是:

优点:

  • 这使您在选择分析方法和 保留排序中的信息。对许多人来说更重要 分析师,它使您可以轻松地分析数据。

缺点:

  • 此方法需要假设数值距离 每组后续类别之间的相等。除此以外 根据域的不同,您可以增大间隔。