如何知道一目了然将预测变量分类为分类变量还是连续变量更好?

时间:2018-07-31 13:20:48

标签: r glm

我正在使用glm并构建了此模型: glm(cbind(Number_F,Nbre_dead)~ Temperature*Transect*Elevation + Size + Number_I, data=marine_data, family=binomial(link=logit))

响应变量'cbind(Number_alive,Number_dead)'对应于实验结束时活着的和死去的个体的数量。

我已经转换了一些变量,以便程序将它们视为分类的而不是连续的,例如:

marine_data$Elevation<-as.factor(marine_data$Elevation)
marine_data$Transect<-as.factor(marine_data$Transect)
marine_data$Size<-as.factor(marine_data$Size)

但是,我真的不明白为什么让一些变量是分类的而不是连续的更好吗?在我的数据中,“大小”对应于一个只能接受两个值的变量(大小的两个类别:4-5mm和6-7mm),因此对于该变量,在我看来很合逻辑,应该将其归类。对于“横断面”,也只有两个类别(横断面1;横断面2)。对于变量“海拔”,我在每个样例中都有3个种群,它们在两个样例之间的海拔高度相似(〜200m,〜800m,〜1600m)。因此,此变量也只有3个“类别”。

我是否应该考虑类别变量而不是连续变量?

在模型中,其他变量是: 对应于温度处理(6种不同处理)的“温度”和对应于个体初始密度(即在实验开始时)的“ Number_I”。

我也应该将它们归类吗?每种方法的优缺点是什么?

谢谢。

0 个答案:

没有答案