汇总(和最大化)多层混合效应模型的数据

时间:2019-05-29 19:12:45

标签: r statistics time-series mixed-models

我正在研究学区支出与该学区内城市/城镇犯罪率的关系,特别是从2000年到2017年。大约有14,000个学区(尽管从2000年的〜15,000到〜13,500不等)是2017年的犯罪数据。DV是每个城市的数据。

协变量/固定效应包括人口密度(城市),人口(城市),执法总数(城市),生活在贫困中的儿童比例(学区或县),失业率(县),投票历史/道具之间的差异投票给Dem。与人均收入(县)的对比(县),年份和学生支出(学区)

问题在于没有整齐的嵌套结构;不幸的是,一个城市中的学生可能会上多个学区,而学区又不能很好地适应一个县(它们重叠,因此一个学区可以服务多个县)。换句话说,大约有13,500个学区,但是如果您将学区作为县的功能,则大约有19,000个学区(因此大约有5500个重叠的学区)。

在不删除我的DV(犯罪)中的NA的情况下,有数百万个值。总计,我有133,000个城市/城镇在此17年期间报告了犯罪。但是,由于城市/城镇与地区重叠,因此我总共有1,220,000个观测值(即使在删除未举报犯罪的城市/城镇的资产净值之后)。

我正在运行一个多级混合模型,我想知道我的模型(以及数据的分组和汇总结构)是否包含最多的数据,以及是否存在一个随机效应结构(请参见下文) )比其他原则更重要。

如果我按州,县和市分组,并用均值汇总,我将获得学生支出的城市价值,但它们都是县内学生支出的价值(尽管每个犯罪价值都不同) )。如果我查看所有年份的州,县和市的不同值,我会得到80300个不同的市/镇值,然后通过glmer(lme4)在R中进行分析。

我已经运行了许多模型,但是使用了随机效应结构(取决于模型是否为正并可以收敛:

(year|CITY)+(1|COUNTY/STATE)
(1|CITY) + (1|COUNTY) + (1|STATE)
(year|CITY) + (1|COUNTY) + (1|STATE)
(year|COUNTY)
(1|COUNTY/STATE)

glmer.law_enforcement.type <- glmer(COUNT ~ CRIME + cent.log.pop + cent.log.pop.dens + year + cent.log.per.cap + diff.dem + cent.log.enforcement + cent.EXP_STUDENT + (year|COUNTY_ID), family = "poisson", control = glmerControl(optimizer = "nloptwrap", calc.derivs = FALSE), total.years.v.p, na.action = "na.exclude")

变量(按顺序)=犯罪类型;人口;人口密度;年(数字);人均收入;投票历史;执法;学生支出(/ 1000)。

根据我的随机效应结构,该模型通常会收敛并且很好,但是有时我会收到以下警告,因此我将更改随机效应结构:

Cholmod warning 'not positive definite' at file:../Cholesky/t_cholmod_rowfac.c, line 431Cholmod warning 'not positive definite' at file:../Cholesky/t_cholmod_rowfac.c, line 431Error in pwrssUpdate(pp, resp, tol = tolPwrss, GQmat = GQmat, compDev = compDev,  : 
  (maxstephalfit) PIRLS step-halvings failed to reduce deviance in pwrssUpdate

0 个答案:

没有答案