在机器学习预处理中大规模扩展数据

时间:2018-07-16 16:11:22

标签: machine-learning

我对机器学习非常陌生。 我正在尝试将ML应用于包含近50个功能的数据。有些功能的范围是 0到1000000,有些功能的范围是0到100 ,甚至更小。现在,当我通过将 MinMaxScaler 用于范围(0,1)来使用特征缩放时,我认为范围较大的特征会缩小到非常小的值,这可能会影响我做出好的预测。

我想知道是否存在一些有效的缩放方法,以便所有特征均得到适当缩放。

我也尝试了标准的洁牙机,但准确性并未提高。 还可以为某些功能使用其他缩放功能,为其余功能使用其他缩放功能。

谢谢!

1 个答案:

答案 0 :(得分:2)

特征缩放或数据标准化是训练机器学习模型的重要组成部分。通常建议对所有功能使用相同的缩放方法。如果不同功能的标度差异很大,则可能会对您的学习能力产生连锁反应(取决于您使用的是哪种方法)。通过确保标准化的特征值,所有特征在其表示中均被隐式加权。

两种常见的规范化方法是:

  • 重新缩放(也称为最小-最大归一化):

    enter image description here

    其中 x 是原始值,而 x'是归一化值。例如,假设我们有学生的体重数据,并且学生的体重跨度为[160磅,200磅]。要重新缩放此数据,我们首先从每个学生的体重中减去160,然后将结果除以40(最大和最小体重之间的差)。

  • 均值归一化

    enter image description here

    其中 x 是原始值,而 x'是归一化值。