我正在使用glm并构建了此模型:
glm(cbind(Number_F,Nbre_dead)~ Temperature*Transect*Elevation + Size + Number_I, data=marine_data, family=binomial(link=logit))
响应变量'cbind(Number_alive,Number_dead)'对应于实验结束时活着的和死去的个体的数量。
我已经转换了一些变量,以便程序将它们视为分类的而不是连续的,例如:
marine_data$Elevation<-as.factor(marine_data$Elevation)
marine_data$Transect<-as.factor(marine_data$Transect)
marine_data$Size<-as.factor(marine_data$Size)
但是,我真的不明白为什么让一些变量是分类的而不是连续的更好吗?在我的数据中,“大小”对应于一个只能接受两个值的变量(大小的两个类别:4-5mm和6-7mm),因此对于该变量,在我看来很合逻辑,应该将其归类。对于“横断面”,也只有两个类别(横断面1;横断面2)。对于变量“海拔”,我在每个样例中都有3个种群,它们在两个样例之间的海拔高度相似(〜200m,〜800m,〜1600m)。因此,此变量也只有3个“类别”。
我是否应该考虑类别变量而不是连续变量?
在模型中,其他变量是: 对应于温度处理(6种不同处理)的“温度”和对应于个体初始密度(即在实验开始时)的“ Number_I”。
我也应该将它们归类吗?每种方法的优缺点是什么?
谢谢。