我正在尝试理解lmer的功能。我已经找到了很多关于如何使用命令的信息,但没有太多关于它实际做了什么(除了一些神秘的评论:http://www.bioconductor.org/help/course-materials/2008/PHSIntro/lme4Intro-handout-6.pdf)。我正在玩下面这个简单的例子:
library(data.table)
library(lme4)
options(digits=15)
n<-1000
m<-100
data<-data.table(id=sample(1:m,n,replace=T),key="id")
b<-rnorm(m)
data$y<-rand[data$id]+rnorm(n)*0.1
fitted<-lmer(b~(1|id),data=data,verbose=T)
fitted
我理解lmer拟合形式为Y_ {ij} = beta + B_i + epsilon_ {ij}的模型,其中epsilon_ {ij}和B_i分别是具有方差sigma ^ 2和tau ^ 2的独立法线。如果theta = tau / sigma是固定的,我用正确的均值和最小方差计算了β的估计值
c = sum_{i,j} alpha_i y_{ij}
,其中
alpha_i = lambda/(1 + theta^2 n_i)
lambda = 1/[\sum_i n_i/(1+theta^2 n_i)]
n_i = number of observations from group i
我还计算了sigma ^ 2的以下无偏估计:
s ^ 2 = \ sum_ {i,j} alpha_i(y_ {ij} - c)^ 2 /(1 + theta ^ 2 - lambda)
这些估计似乎与lmer产生的结果一致。但是,我无法弄清楚在这种情况下如何定义对数似然。我计算了概率密度
pd(Y_{ij}=y_{ij}) = \prod_{i,j}[f_sigma(y_{ij}-ybar_i)]
* prod_i[f_{sqrt(sigma^2/n_i+tau^2)}(ybar_i-beta) sigma sqrt(2 pi/n_i)]
,其中
ybar_i = \sum_j y_{ij}/n_i (the mean of observations in group i)
f_sigma(x) = 1/(sqrt{2 pi}sigma) exp(-x^2/(2 sigma)) (normal density with sd sigma)
但上述记录不是lmer产生的。在这种情况下如何计算对数似然(对于奖励标记,为什么)?
修改:更改了一致性的表示法,删除了标准偏差估算的错误公式。
答案 0 :(得分:14)
评论中的链接包含答案。下面我在这个简单的例子中简化了公式,因为结果有些直观。
lmer适合形式的模型,其中和分别是变量和的独立法线。因此,和的联合概率分布是
,其中
通过将其与(未观察到)相结合来获得可能性
其中是来自组的观察次数,而是来自组的观察值的平均值。这有点直观,因为第一项捕获在每个组内传播,应该有方差,第二项捕获组之间的传播。请注意,是的差异。
然而,默认情况下(REML = T)lmer最大化不是可能性,而是“REML标准”,通过将其与进行额外整合而获得
下面给出了。
如果已修复,我们可以明确找到最大可能性的和。他们结果是
注意有两个关于组内和组之间变异的术语,介于的平均值和的平均值之间,具体取决于值{
将这些代入可能性,我们只能用来表示对数似然:
lmer迭代以找到最小化此值的的值。在输出中,和分别显示在“deviance”和“logLik”字段中(如果REML = F)。
由于REML标准不依赖,我们对使用与上述相同的估算值。我们估计以最大化REML标准:
受限制的对数似然由
给出
在lmer的输出中,和分别显示在“REMLdev”和“logLik”字段中(如果REML = T)。