我有一个数据集,其中包含性别,即“男”和“女”。我已经使用pandas功能将male转换为1,将female转换为0,现在的数据类型为int8。现在我想对诸如体重和身高之类的列进行标准化。那么应使用“性别”列做什么。是否应该规范化。我打算在线性回归中使用它。
答案 0 :(得分:2)
所以我认为您正在将标准化与标准化混为一谈。
标准化:
将数据重新缩放到[0; 1]
标准化:
将数据重新缩放为平均值为0,标准差为1。
返回您的问题:
对于您的性别列,您的得分已经在0到1之间。因此,您的数据已经“规范化”。因此,您的问题应该是是否可以使您的数据标准化,答案是:是的,您可以,但实际上没有任何意义。这个问题已经在这里讨论:Should you ever standardise binary variables?