我应该缩放百分比变量吗?

时间:2019-04-25 13:56:43

标签: python machine-learning neural-network

我有一个数据框,其中包含不同规模的变量(年龄,收入,作为客户的天数,在每种已售产品中花费的百分比(值从0到1)等)。我认为有必要缩放这些变量以用于例如神经网络算法。 我的问题是:以百分比表示的变量,已经以某种方式进行了缩放,可以在整个数据集中应用MinMax还是不应该在Min Max缩放中考虑这些百分比变量并使它们保持原始值?

2 个答案:

答案 0 :(得分:1)

我认为没有必要。如果百分比变量在0到1之间,则无需缩放它们,因为它们已经被缩放。

答案 1 :(得分:1)

  

通常,神经网络固有地能够扩展您的输入   本身具有以下特征:神经网络是一种表示形式   学习,最终这正是他们应该做的   与传统的机器学习方法相反,在传统的机器学习方法中,您需要自己(通过其他方法)找到功能的良好表示形式。

现在,扩展功能以改善培训过程仍然很有意义。

  1. 这与您的激活函数(ReLU,Sigmoid等)的敏感字段有关,这些敏感字段以零为中心并快速饱和。
  2. 显然,如果您已经具有问题的领域知识,则可以在缩放过程中对功能进行预加权。您不需要神经网络就可以自行解决问题。

有关更多信息,请参见此不错的overview

最佳做法:
推荐的预处理方法是将数据的中心均值为零,并沿每个特征将其标度标准化为[-1,1]