我将以说我对R相当陌生并且在这个问题上停留了几周而似乎无处可寻来开头。我希望进行多元logistic回归,以确定水主要物质和土壤类型是否在我的学习区域。
我有417个正供水中断位置,并另外创建了400个虚假位置供分析使用。我了解水的主要物质和土壤类型都是分类变量,在使用GLM模型之前应将其重新编码为虚拟变量。那就是我遇到麻烦的地方。直到现在我还没有使用伪变量,并且似乎无法理解它们是如何在R中创建的。以下是我拥有的数据以及正在使用的当前GLM模型的细目分类。
指示符:0或1(指示XY位置是否是供水总中断位置)
主要材料:XY位置的主要水管材料(分类值-大约8个唯一值)
土壤分类:断裂处的土壤类型(分类值-大约20个值)
(logAnalysis <-glm(Indicator〜main_material + soil_classification,data = Breaks,family = binomial(link =“ logit”))
我只使用过一次Stack Exchange,所以如果需要更多信息,请告诉我。
尝试使用Aurther建议使用factor()之后,这是我得到的输出。 R Ouput
我对为什么许多土壤分类和PE主要材料具有如此高的Std感到有些困惑。错误。
答案 0 :(得分:0)
factor()
是R的“虚拟变量”
试试:
(logAnalysis <- glm(Indicator~main_material+factor(soil_classification), data=Breaks, family=binomial(link="logit"))