我正在使用数据集来使用多变量回归技术进行一些预测。我必须根据一些自主变量来预测员工的工资,如性别,百分比,出生日期,不同科目的分数,学位,专业化等。
数字参数(例如,不同科目中的标记和百分比)可以与回归模型一起使用。但是,我们如何在这里规范化非数字参数(性别,出生日期,学位,专业化)?
P.S。 :我正在使用scikit-learn : machine learning in python包。
答案 0 :(得分:1)
您想对分类参数进行编码。
请注意,日期不是分类参数!将它转换为unix时间戳(自纪元以来的秒数),你有一个很好的参数可以回归。
答案 1 :(得分:0)
我希望这可以帮到你。有关如何使用该功能的完整说明,请访问此链接。
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html
答案 2 :(得分:0)
“Normaliz [ing]非数字参数”实际上是一个巨大的回归领域。最常见的处理方法是将每个分类变成一组名为dummy variables的二进制变量。
每个具有n
值的分类都应转换为n-1
虚拟变量。因此,例如,对于性别,您可能有一个变量“女性”,即每次观察时为0或1。为什么n-1
而不是n
?因为你想避免使用dummy variable trap,所以基本上所有1的截距列都可以从你的虚拟列的线性组合中重建。在相对非技术性的术语中,这很糟糕,因为它会扰乱进行回归所需的线性代数。
我对scikit-learn库不是很熟悉,但我建议您确保使用的方法,确保每个分类变为n-1
个新列,而不是n
。