具有系数约束的线性回归

时间:2017-08-08 20:35:38

标签: r linear-regression quadratic-programming

我正在尝试对这样的模型执行线性回归:

Y = aX1 + bX2 + c

所以,Y ~ X1 + X2

假设我有以下响应向量:

set.seed(1)
Y <- runif(100, -1.0, 1.0)

以下预测变量矩阵:

X1 <- runif(100, 0.4, 1.0)
X2 <- sample(rep(0:1,each=50))
X <- cbind(X1, X2)

我想对系数使用以下约束:

a + c >= 0  
c >= 0

因此对b没有约束。

我知道glmc包可用于应用约束,但我无法确定如何将其应用于约束。我也知道可以使用contr.sum,例如,所有系数总和为0,但这不是我想要做的。 solve.QP()似乎是另一种可能性,可以使用设置meq=0,以便所有系数都是> = 0(同样,这里不是我的目标)。

注意:解决方案必须能够处理响应向量Y中的NA值,例如:

Y <- runif(100, -1.0, 1.0)
Y[c(2,5,17,56,37,56,34,78)] <- NA

1 个答案:

答案 0 :(得分:3)

solve.QP可以传递任意线性约束,因此它当然可以用于建模约束a+c >= 0c >= 0

首先,我们可以向X添加一列1来捕获截距项,然后我们可以使用solve.QP复制标准线性回归:

X2 <- cbind(X, 1)
library(quadprog)
solve.QP(t(X2) %*% X2, t(Y) %*% X2, matrix(0, 3, 0), c())$solution
# [1]  0.08614041  0.21433372 -0.13267403

使用来自问题的样本数据,使用标准线性回归既不满足约束条件。

通过修改Amatbvec参数,我们可以添加两个约束:

solve.QP(t(X2) %*% X2, t(Y) %*% X2, cbind(c(1, 0, 1), c(0, 0, 1)), c(0, 0))$solution
# [1] 0.0000000 0.1422207 0.0000000

受这些约束的影响,通过将a和c系数设置为等于0,可以最小化平方残差。

您可以像Y函数一样处理X2lm中的缺失值,方法是删除有问题的观察结果。您可以执行以下操作作为预处理步骤:

has.missing <- rowSums(is.na(cbind(Y, X2))) > 0
Y <- Y[!has.missing]
X2 <- X2[!has.missing,]