Question

我有一个矩阵，其中每列的平均值为0，标准值为1

In [67]: x_val.std(axis=0).min()
Out[70]: 0.99999999999999922

In [71]: x_val.std(axis=0).max()
Out[71]: 1.0000000000000007

In [72]: x_val.mean(axis=0).max()
Out[72]: 1.1990408665951691e-16

In [73]: x_val.mean(axis=0).min()
Out[73]: -9.7144514654701197e-17

如果我使用normalize选项

，非0系数的数量会发生变化

In [74]: l = Lasso(alpha=alpha_perc70).fit(x_val, y_val)

In [81]: sum(l.coef_!=0)
Out[83]: 47

In [84]: l2 = Lasso(alpha=alpha_perc70, normalize=True).fit(x_val, y_val)

In [93]: sum(l2.coef_!=0)
Out[95]: 3

在我看来，规范化只是将每列的方差设置为1.奇怪的是，结果变化如此之大。我的数据已经变异= 1。

那么normalize = T实际上做了什么？

Answer 1

这是由于sklearn.linear_model.base.center_data中的缩放概念（或潜在的[1]）不一致：如果normalize=True，那么它将除以范数设计矩阵的每一列，而不是标准偏差。对于它的价值，关键字normalize=True将从sklearn版本0.17中弃用。

解决方案：不使用standardize=True。相反，构建sklearn.pipeline.Pipeline并在sklearn.preprocessing.StandardScaler对象前加Lasso。这样你甚至不需要进行初始缩放。

请注意，Lasso的sklearn实现中的数据丢失项由n_samples缩放。因此，产生零解的最小惩罚是alpha_max = np.abs(X.T.dot(y)).max() / n_samples（对于normalize=False）。

[1]我说潜在的不一致，因为 normalize 与单词 norm 相关联，因此至少在语言上是一致的：）

[如果您不想要详情，请停止阅读

这是一些复制和粘贴代码，可以重现问题

import numpy as np
rng = np.random.RandomState(42)

n_samples, n_features, n_active_vars = 20, 10, 5
X = rng.randn(n_samples, n_features)
X = ((X - X.mean(0)) / X.std(0))

beta = rng.randn(n_features)
beta[rng.permutation(n_features)[:n_active_vars]] = 0.

y = X.dot(beta)

print X.std(0)
print X.mean(0)

from sklearn.linear_model import Lasso

lasso1 = Lasso(alpha=.1)
print lasso1.fit(X, y).coef_

lasso2 = Lasso(alpha=.1, normalize=True)
print lasso2.fit(X, y).coef_

为了理解发生了什么，现在观察

lasso1.fit(X / np.sqrt(n_samples), y).coef_ / np.sqrt(n_samples)

等于

lasso2.fit(X, y).coef_

因此，缩放设计矩阵并通过np.sqrt(n_samples)适当地重新调整系数，将一个模型转换为另一个模型。这也可以通过惩罚来实现：normalize=True的套索估算器，其惩罚按np.sqrt(n_samples)缩小，就像带有normalize=False的套索估算器一样（根据您的数据类型，即已经标准化为std=1）。

lasso3 = Lasso(alpha=.1 / np.sqrt(n_samples), normalize=True)
print lasso3.fit(X, y).coef_  # yields the same coefficients as lasso1.fit(X, y).coef_

Answer 2

我认为最佳答案是错误的...

在 Lasso 中，如果您设置 normalize=True，则在拟合 lasso 回归之前，每一列都将除以其 L2 范数（即 sd*sqrt(n)）。设计矩阵的大小因此减小，“预期”系数将被放大。系数越大，L1 惩罚越强。所以函数必须更加关注L1惩罚，让更多的特征为0。结果你会看到更多的稀疏特征（β=0）。

在Lasso sklearn中，normalize = True的选项是什么？

2 个答案: