R逻辑回归

时间:2017-08-17 18:50:51

标签: r statistics logistic-regression

我是统计数据的新手, R 。在我的数据集中,目标变量是航班状态,以预测航班是否可以延迟或者是否可以按时完成。因此,它有两个响应变量值 - 延迟和准时。因此,为了使用 R 构建逻辑回归模型,我们是否必须首先将目标变量重新编码为0和1?我的意思是它需要0-Delayed和1为Ontime。或者我可以将目标变量保留为因子吗?

请原谅我的基本问题。

1 个答案:

答案 0 :(得分:3)

data(iris)

Binary dependent variable:
iris$Species_binary <- ifelse(iris$Species=="setosa", "no", "yes")

它是否可以作为一个因素?

glm(as.factor(iris$Species_binary)~iris$Sepal.Length, family="binomial")

是的,确实如此。

Call:  glm(formula = as.factor(iris$Species_binary) ~ iris$Sepal.Length, 
    family = "binomial")

Coefficients:
      (Intercept)  iris$Sepal.Length  
          -27.829              5.176  

Degrees of Freedom: 149 Total (i.e. Null);  148 Residual
Null Deviance:        191 
Residual Deviance: 71.84  AIC: 75.84

它是否可以作为逻辑(布尔)变量?

glm(I(iris$Species_binary=="yes")~iris$Sepal.Length, family="binomial")
Call:  glm(formula = I(iris$Species_binary == "yes") ~ iris$Sepal.Length, 
    family = "binomial")

Coefficients:
      (Intercept)  iris$Sepal.Length  
          -27.829              5.176  

Degrees of Freedom: 149 Total (i.e. Null);  148 Residual
Null Deviance:        191 
Residual Deviance: 71.84  AIC: 75.84

是的,它会的。当然,数字变量也可以。

logit的大多数其他软件包/函数都是这种情况,但有些可能表现不同。请注意,逻辑链接是二项式族的默认值,这就是我没有必要指定它的原因。

但是,如果你这样做,请确保你知道哪个级别的因子被计为正数水平!否则你对结果的解释将会倒退。