何时应用数据白化

时间:2014-02-18 10:10:40

标签: machine-learning data-mining data-processing

数据白化(特征缩放和均值归一化)非常有用,当我们使用代表不同特征并且尺度非常不同的特征(例如房屋的房间数和房价)时。

当这些特征代表“相似的变量”但规模大不相同的情况时呢? 例如,我们假设我们有一个矩阵,表示环境中不同时刻不同物种的数量,我们希望将这些物种重新分组(例如,证明蚊子和鸟类种群非常相关)。在这个例子中,蚊子的数量比鸟类的数量要多得多(比如十倍或一百倍)。白化这些数据是个好主意吗?

1 个答案:

答案 0 :(得分:2)

我认为应该在每个要素的数值范围变化时应用数据缩放,它应该应用于您描述的数据

根据我对svm(liblinear)的经验,通过数据缩放10%可以提高列车模型的准确性。

通常我们会对svm模型应用regulization,这样可以确保wight不会变得太大,而如果数据没有缩放,feature1比feature2大100倍,则feature1的重量应该小于100倍feature2平衡feature1和feature2的效果(这意味着w * x是平衡的),在这种情况下,feature2的重量会尝试增长(如果feature2有效),但是受到模型的约束,所以feature2不能显示其效果。