我目前正在对数据集运行多元线性回归。起初,我没有意识到我需要限制我的重量;事实上,我需要有特定的积极因素。负权重。
更确切地说,我正在做一个评分系统,这就是为什么我的一些变量会对音符产生正面或负面影响的原因。然而,在运行我的模型时,结果并不符合我的期望,我的一些积极的'变量得到负系数,反之亦然。
举个例子,假设我的模型是:
y = W0*x0 + W1*x1 + W2*x2
x2是积极的'变量,我想对W2施加一个约束为正!
我一直在寻找关于这个问题的很多内容,但是我没有发现任何关于特定权重/系数的约束,我发现的所有内容都是关于将所有系数设置为正或者将它们加总为1。
我正在使用ScikitLearn包处理Python。这就是我获得最好模特的方式:
def ridge(Xtrain, Xtest, Ytrain, Ytest, position):
param_grid={'alpha':[0.01 , 0.1, 1, 10, 50, 100, 1000]}
gs = grid_search.GridSearchCV(Ridge(), param_grid=param_grid, n_jobs=-1, cv=3)
gs.fit(Xtrain, Ytrain)
hatytrain = gs.predict(Xtrain)
hatytest = gs.predict(Xtest)
我是否可以为特定变量的系数分配约束?可能会很难定义每个约束,但我不知道如何做其他约束。
谢谢!
注意:我还是编码的初学者:)
答案 0 :(得分:1)
Scikit-learn不允许对系数进行此类约束。
但是,如果您实施自己的估算工具,您可以对系数施加任何约束并使用坐标下降来优化损失。在无约束情况下,坐标下降在合理的迭代次数中产生与OLS相同的结果。
我写了一个强加LinearRegression系数上下界的类。你可以扩展它以使用Ridge或evel Lasso惩罚:
from sklearn.linear_model.base import LinearModel
from sklearn.base import RegressorMixin
from sklearn.utils import check_X_y
import numpy as np
class ConstrainedLinearRegression(LinearModel, RegressorMixin):
def __init__(self, fit_intercept=True, normalize=False, copy_X=True, nonnegative=False, tol=1e-15):
self.fit_intercept = fit_intercept
self.normalize = normalize
self.copy_X = copy_X
self.nonnegative = nonnegative
self.tol = tol
def fit(self, X, y, min_coef=None, max_coef=None):
X, y = check_X_y(X, y, accept_sparse=['csr', 'csc', 'coo'], y_numeric=True, multi_output=False)
X, y, X_offset, y_offset, X_scale = self._preprocess_data(
X, y, fit_intercept=self.fit_intercept, normalize=self.normalize, copy=self.copy_X)
self.min_coef_ = min_coef if min_coef is not None else np.repeat(-np.inf, X.shape[1])
self.max_coef_ = max_coef if max_coef is not None else np.repeat(np.inf, X.shape[1])
if self.nonnegative:
self.min_coef_ = np.clip(self.min_coef_, 0, None)
beta = np.zeros(X.shape[1]).astype(float)
prev_beta = beta + 1
hessian = np.dot(X.transpose(), X)
while not (np.abs(prev_beta - beta)<self.tol).all():
prev_beta = beta.copy()
for i in range(len(beta)):
grad = np.dot(np.dot(X,beta) - y, X)
beta[i] = np.minimum(self.max_coef_[i],
np.maximum(self.min_coef_[i],
beta[i]-grad[i] / hessian[i,i]))
self.coef_ = beta
self._set_intercept(X_offset, y_offset, X_scale)
return self
例如,您可以使用此类使所有系数非负
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
X, y = load_boston(return_X_y=True)
model = ConstrainedLinearRegression(nonnegative=True)
model.fit(X, y)
print(model.intercept_)
print(model.coef_)
这会产生类似
的输出-36.99292986145538
[0. 0.05286515 0. 4.12512386 0. 8.04017956
0. 0. 0. 0. 0. 0.02273805
0. ]
您可以看到大多数系数为零。普通的LinearModel会使它们变为负数:
model = LinearRegression()
model.fit(X, y)
print(model.intercept_)
print(model.coef_)
会回到你身边
36.49110328036191
[-1.07170557e-01 4.63952195e-02 2.08602395e-02 2.68856140e+00
-1.77957587e+01 3.80475246e+00 7.51061703e-04 -1.47575880e+00
3.05655038e-01 -1.23293463e-02 -9.53463555e-01 9.39251272e-03
-5.25466633e-01]
你也可以为你选择的任何系数强加任意界限 - 这就是你要求的。例如,在此设置中
model = ConstrainedLinearRegression()
min_coef = np.repeat(-np.inf, X.shape[1])
min_coef[0] = 0
min_coef[4] = -1
max_coef = np.repeat(4, X.shape[1])
max_coef[3] = 2
model.fit(X, y, max_coef=max_coef, min_coef=min_coef)
print(model.intercept_)
print(model.coef_)
你会得到一个输出
24.060175576410515
[ 0. 0.04504673 -0.0354073 2. -1. 4.
-0.01343263 -1.17231216 0.2183103 -0.01375266 -0.7747823 0.01122374
-0.56678676]
答案 1 :(得分:0)
在scikit-learn的0.24.2版本中,您可以通过使用参数positive=True强制算法使用正系数到 LinearRegression,通过将您想要负系数的列乘以 -1,您应该得到您想要的。