可以通过特定概率强制逻辑回归或其他分类器吗?

时间:2016-12-28 21:57:05

标签: r logistic-regression spss linear-discriminant

我有一个带有二进制变量[Yes / No]和连续变量(X)的数据集。我试图制作一个模型来分类[是/否] X。

从我的数据集中,当X = 0.5时,48%的观察值为是。但是,我知道当X = 0.5时,是的真实概率应为50%。当我使用逻辑回归创建模型时X = 0.5!= P [是= 0.5]。

我该如何纠正?我想如果没有通过正确的点,那么所有的概率都应该被轻微低估。

在我的样本中添加一堆观察值以调整比例是否正确?

不一定只是逻辑回归,LDA,QDA等也是有意义的。

我搜索过Stack Overflow,但只找到了有关线性回归的主题。

2 个答案:

答案 0 :(得分:3)

我相信在R中(假设您使用基础R中的glm),您只需要

glm(y~I(x-0.5)-1,data=your_data,family=binomial)

I(x-0.5)将协变量重新定位为0.5,-1抑制截距(x=0.5处的截距= 0 - x=0.5处的概率= 0.5)。

例如:

set.seed(101)
dd <- data.frame(x=runif(100,0.5,1),y=rbinom(100,size=1,prob=0.7))
m1 <- glm(y~I(x-0.5)-1,data=dd,family=binomial)
predict(m1,type="response",newdata=data.frame(x=0.5)) ## 0.5

答案 1 :(得分:2)

OP写道:

  

我该如何纠正?我想如果它没有通过正确的点,那么所有概率都应该被轻微低估。

事实并非如此。完全有可能低估某些价值观(如拦截)并高估其他价值观。

根据您的情况举例:

真实概率:

set.seed(444)

true_prob <- function(x) {

  # logit probabilities
  lp <- (x - 0.5)

  # true probabilities
  p <- 1 / (1 + exp(-lp))
  p

}

true_prob(x = 0.5)
[1] 0.5

但如果您模拟数据并拟合模型,拦截可能会被低估,而其他值则被高估:

n <- 100
# simulated predictor
x <- runif(n, 0, 1)
probs <- true_prob(x)

# simulated binary response
y <- as.numeric(runif(n) < probs)

现在拟合模型并比较真实概率与拟合概率:

> true_prob(0.5)
[1] 0.5
> predict(m, newdata = data.frame(x = 0.5), type = "response")
       1 
0.479328 
> true_prob(2)
[1] 0.8175745
> predict(m, newdata = data.frame(x = 2), type = "response")
        1 
0.8665702 

所以在这个例子中,模型低估了x = 0.5并高估了x = 2