我是统计数据的新手, R 。在我的数据集中,目标变量是航班状态,以预测航班是否可以延迟或者是否可以按时完成。因此,它有两个响应变量值 - 延迟和准时。因此,为了使用 R 构建逻辑回归模型,我们是否必须首先将目标变量重新编码为0和1?我的意思是它需要0-Delayed和1为Ontime。或者我可以将目标变量保留为因子吗?
请原谅我的基本问题。
答案 0 :(得分:3)
data(iris)
Binary dependent variable:
iris$Species_binary <- ifelse(iris$Species=="setosa", "no", "yes")
它是否可以作为一个因素?
glm(as.factor(iris$Species_binary)~iris$Sepal.Length, family="binomial")
是的,确实如此。
Call: glm(formula = as.factor(iris$Species_binary) ~ iris$Sepal.Length, family = "binomial") Coefficients: (Intercept) iris$Sepal.Length -27.829 5.176 Degrees of Freedom: 149 Total (i.e. Null); 148 Residual Null Deviance: 191 Residual Deviance: 71.84 AIC: 75.84
它是否可以作为逻辑(布尔)变量?
glm(I(iris$Species_binary=="yes")~iris$Sepal.Length, family="binomial")
Call: glm(formula = I(iris$Species_binary == "yes") ~ iris$Sepal.Length, family = "binomial") Coefficients: (Intercept) iris$Sepal.Length -27.829 5.176 Degrees of Freedom: 149 Total (i.e. Null); 148 Residual Null Deviance: 191 Residual Deviance: 71.84 AIC: 75.84
是的,它会的。当然,数字变量也可以。
logit的大多数其他软件包/函数都是这种情况,但有些可能表现不同。请注意,逻辑链接是二项式族的默认值,这就是我没有必要指定它的原因。
但是,如果你这样做,请确保你知道哪个级别的因子被计为正数水平!否则你对结果的解释将会倒退。