用数字变量数据集对标称,有序,二进制进行缩放

时间:2019-07-20 06:53:10

标签: data-science one-hot-encoding data-science-experience

如果数据集以字符(即分类)给出,那么我们需要使用一种热编码将其转换为数值数据?

我的第二个问题是,一种热编码仅对标称数据类型有意义还是对标称和序数数据类型有意义?

1 个答案:

答案 0 :(得分:0)

确实需要在将分类变量提交给模型之前将分类变量转换为数字形式(尽管某些模型实现会自动执行此操作)。一种热编码是一种实现方法,但是您可以选择更多的“编码器”(“顺序编码”,“二进制编码”,“哈希编码” ...),它们都适合不同的情况。

对于第二个问题,您的数据是标称还是序数并不重要,唯一重要的是您的数据是分类的。

也就是说,如果您的数据是Ordinal,则模型会接受它。但是,在某些情况下,序数可能会很不好,因为在类别之间引入“距离概念”。 例如,如果您有这种编码,则表示交通工具:

  • 1->汽车
  • 2->巴士
  • 3->地铁
  • 4->自行车

该模型将了解自行车比地铁更靠近汽车,这是您可能不想提供给模型的信息。 One hot Encoding通过将每个类别彼此保持相同的距离来解决此问题。