如何在python

时间:2015-12-26 13:32:28

标签: python regression normalization linear-regression

我正在使用数据集来使用多变量回归技术进行一些预测。我必须根据一些自主变量来预测员工的工资,如性别,百分比,出生日期,不同科目的分数,学位,专业化等。

数字参数(例如,不同科目中的标记和百分比)可以与回归模型一起使用。但是,我们如何在这里规范化非数字参数(性别,出生日期,学位,专业化)?

P.S。 :我正在使用scikit-learn : machine learning in python包。

3 个答案:

答案 0 :(得分:1)

您想对分类参数进行编码。

请注意,日期不是分类参数!将它转换为unix时间戳(自纪元以来的秒数),你有一个很好的参数可以回归。

答案 1 :(得分:0)

我希望这可以帮到你。有关如何使用该功能的完整说明,请访问此链接。

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html

答案 2 :(得分:0)

“Normaliz [ing]非数字参数”实际上是一个巨大的回归领域。最常见的处理方法是将每个分类变成一组名为dummy variables的二进制变量。

每个具有n值的分类都应转换为n-1虚拟变量。因此,例如,对于性别,您可能有一个变量“女性”,即每次观察时为0或1。为什么n-1而不是n?因为你想避免使用dummy variable trap,所以基本上所有1的截距列都可以从你的虚拟列的线性组合中重建。在相对非技术性的术语中,这很糟糕,因为它会扰乱进行回归所需的线性代数。

我对scikit-learn库不是很熟悉,但我建议您确保使用的方法,确保每个分类变为n-1个新列,而不是n