我目前正在做混合线性模型(使用R中的lme
函数),我遇到了一些问题。
我的数据集是关于斯洛文尼亚棕熊的损害。斯洛文尼亚分为1x1km网格,每个网格我有每年损失数量的数据(连续12年)。这种损害的频率将是模型中的Y
变量,我将测试不同的环境变量来解释损害的发生(例如到森林边缘的距离,森林覆盖等)。
我将年份作为随机因素(通过似然比检验进行验证)。
我的样本量很大(250 000个单元格值),主要是0(只有4000个案例为阳性,一年内一个细胞中的损伤范围为1到17)。
这是我的问题。遵循Zuur(2009)方法,我试图找到我的模型的最佳固定结构。我的第一个模型包含所有变量,以及一些相互作用(见下文)。我使用的是logit链接。
f1 <- formula (dam ~ masting + dens*pop_size_index + saturation + exposition
settlements + orchards + crops + meadows + mixed_for + dist_for_out
dist_for_out_a + dist_for_in + dist_for_in_a + for_edge + prop_broadleaves
prop_broadleaves_a + dist_road + dist_village + feed_stat + sup_food
masting*prop_broadleaves)
M1.lme <- lme (f1, random = ~1|year, method="REML", data=d)
但是,看看似然比测试,我无法删除任何变量。一切都很重要。然而,模型仍然非常糟糕(变量太多,残差不好看),我绝对不能就此止步。
那么我怎样才能找到更好的模型(即摆脱非重要变量)?
这是因为我的样本量大吗? 这种零通胀可能是个问题吗?
我找不到另一种改进模型的方法,这会考虑到这一点。
有什么建议吗?