具有虚拟变量的多元Logistic回归

时间:2019-02-28 12:12:49

标签: r variables regression

我将以说我对R相当陌生并且在这个问题上停留了几周而似乎无处可寻来开头。我希望进行多元logistic回归,以确定水主要物质土壤类型是否在我的学习区域。

我有417个正供水中断位置,并另外创建了400个虚假位置供分析使用。我了解水的主要物质和土壤类型都是分类变量,在使用GLM模型之前应将其重新编码为虚拟变量。那就是我遇到麻烦的地方。直到现在我还没有使用伪变量,并且似乎无法理解它们是如何在R中创建的。以下是我拥有的数据以及正在使用的当前GLM模型的细目分类。

指示符:0或1(指示XY位置是否是供水总中断位置)

主要材料:XY位置的主要水管材料(分类值-大约8个唯一值)

土壤分类:断裂处的土壤类型(分类值-大约20个值)

(logAnalysis <-glm(Indicator〜main_material + soil_classification,data = Breaks,family = binomial(link =“ logit”))

我只使用过一次Stack Exchange,所以如果需要更多信息,请告诉我。

尝试使用Aurther建议使用factor()之后,这是我得到的输出。 R Ouput

我对为什么许多土壤分类和PE主要材料具有如此高的Std感到有些困惑。错误。

1 个答案:

答案 0 :(得分:0)

factor()是R的“虚拟变量” 试试:

(logAnalysis <- glm(Indicator~main_material+factor(soil_classification), data=Breaks, family=binomial(link="logit"))