在特征分布不同的情况下缩放用于机器学习的特征向量

时间:2018-07-26 18:38:56

标签: python machine-learning scikit-learn sklearn-pandas

我正在尝试为算法缩放我的特征向量。我有3个功能和1个目标变量。 特征1:具有高斯分布 特征2:歪斜的y值随x的增加而减小。 特点3:高度偏斜。几乎所有值都相同。 目标变量:高度偏斜。

我的问题是:我想对特征和目标变量进行MinMaxScaling。缩放所有功能还是倾斜的功能都可以。

功能1:enter image description here

功能2:enter image description here

功能3:enter image description here

目标变量类似于功能3。 由于我的Feature3和目标变量的数据很少,因此MinMaxScaling可以替代吗?

还可以根据相应列的分布在训练数据上使用不同的缩放器吗?如果问题不清楚,我很乐意提供更多信息:)

1 个答案:

答案 0 :(得分:0)

现在,您不应该直接应用MinMaxScaling,因为特征2&3每次都会非常接近0,并且您不会从中学习。我通常要做的是在应用MinMaxScaling / StandardScaling之前,先对这些功能进行记录。对于功能2来说应该没问题,但对于功能3来说,也许您应该考虑做一个log(log(x)),但我从未尝试过。您可能会失去太多差异。我很奇怪看到功能1或2个嵌套日志的直方图。

我希望它会有所帮助, 尼古拉斯