分类变量的归一化

时间:2018-08-17 05:34:17

标签: python-3.x pandas scikit-learn data-science

我有一个数据集,其中包含性别,即“男”和“女”。我已经使用pandas功能将male转换为1,将female转换为0,现在的数据类型为int8。现在我想对诸如体重和身高之类的列进行标准化。那么应使用“性别”列做什么。是否应该规范化。我打算在线性回归中使用它。

1 个答案:

答案 0 :(得分:2)

所以我认为您正在将标准化与标准化混为一谈。

标准化:

将数据重新缩放到[0; 1]

标准化

将数据重新缩放为平均值为0,标准差为1。

返回您的问题:

对于您的性别列,您的得分已经在0到1之间。因此,您的数据已经“规范化”。因此,您的问题应该是是否可以使您的数据标准化,答案是:是的,您可以,但实际上没有任何意义。这个问题已经在这里讨论:Should you ever standardise binary variables?