Python LASSO最大非零系数数

时间:2017-01-27 19:16:20

标签: python matlab scipy scikit-learn lasso

我有一个非常大的数据集,其中包含100多个系数和数千个条目。因此,我想使用Lasso方法进行模型训练。

我目前正在查看sci-kit文档:

虽然实现看起来很简单,但是我无法找到允许限制非零系数的最大数量的输入参数,例如,到10。

更清楚一点,in the MatLab implementation of Lasso,参数' DFMax'允许上述内容。

在任何Python实现中都有这样的选项吗?

2 个答案:

答案 0 :(得分:0)

直接限制非零系数的数量是一个NP难问题,这是LASSO的优点之一,渐近地解决了这个NP难问题。

我不知道在Matlab中实现DFMax,但我的建议如下:

  1. 使用LassoCV查找最佳alpha值。
  2. 如果非零系数的数量小于您的限制,请取此Alpha值。
  3. 如果非零系数的数量大于您的限制,请使用Lasso和增加alphas的列表,并将LassoCV的alpha作为最小值,并在非零系数的数量等于或低于阈值时停止。

答案 1 :(得分:0)

我认为公认的答案不是最好的。这是查找一定数量的套索系数的示例。

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from scipy.optimize import differential_evolution

X, y = make_classification(n_samples=2000, n_features=50, n_informative=10, random_state=10)
logit = LogisticRegression(penalty='l1', C=1.0)

target = 10

def func(C):
    logit = LogisticRegression(penalty='l1', C=C[0], solver='liblinear')
    logit.fit(X, y)
    n_nonzero = np.sum(logit.coef_ != 0)
    return (target-n_nonzero)**2

differential_evolution(func, bounds=[(0, 2)], tol=0.1, maxiter=20)
     fun: 0.0
 message: 'Optimization terminated successfully.'
    nfev: 212
     nit: 13
 success: True
       x: array([0.03048243])
logit = LogisticRegression(penalty='l1', C=0.03048243, solver='liblinear')
logit.fit(X, y)
np.sum(logit.coef_ != 0)

我们找到了最佳正则化参数,以便精确具有10个非零系数。