Question

我有一个动物物种多样性的数据集，每个月在3个横断面中观察到（略多于）2年。我的问题是要找出这些横断面是否有明显不同的动物多样性。对于这样一个简单的问题，单因素方差分析几乎就是答案，但是，我认为为了控制相当大的季节性波动，可能需要重复测量ANOVA以结合改变动物的月度多样性。

我的数据集如下，还有一个动物群多样性随时间变化的情节。

  transect<-c(rep("transA",26),rep("transB",25),rep("transC",25))
  months<-as.numeric(c(1:26,1:11,13:26,0,2,4:26))
  animal_species<-c(2,2,2,4,5,1,5,6,14,8,7,5,5,3,1,2,5,9,8,9,10,10,9,9,7,3,1,3,2,2,3,3,3,7,5,6,5,4,2,2,4,4,5,7,4,5,2,4,2,4,1,1,1,1,3,2,2,3,2,2,1,3,5,3,2,4,2,4,3,6,3,2,2,1,2,1)
  animal_df<-data.frame(transect,months,animal_species)

library(ggplot2)
  ggplot(animal_df,aes(months,animal_species))+geom_bar(stat='identity')+theme_bw()+facet_grid(transect~.)

但有两个问题还违反了方差分析的假设！

首先，我的数据在横断面之间的物种数量存在很大差异，根据Levene（中位数）检验，方差不一样。

animal_AOV<-aov(animal_species~transect, data=animal_df)
 leveneTest(animal_AOV)

# Levene's Test for Homogeneity of Variance (center = median)
#        Df F value    Pr(>F)    
# group  2  10.783 7.889e-05 ***
#      73

第二个是数据似乎遵循不同的分布，这可能是从每个样带的多样性直方图中最容易看到的，其中TransA似乎比其他两个偏差更小。

par(mfrow=c(3,1))
  hist(TransA$animal_species,breaks=14,xlim=c(0,14))  
  hist(TransB$animal_species,breaks=10,xlim=c(0,14))  
  hist(TransC$animal_species,breaks=10,xlim=c(0,14))

我对社区的问题是：

我认为重复测量方法是最明智的分析途径吗？
离开ANOVA假设的偏差是否足够担心？看到有超过20个观测值，观测数量相对平稳？
如何对这样的分析进行编码以产生可行的答案（可能考虑到违规行为），关于重复测量anova的在线信息，似乎有点相互矛盾，如何进行这样的分析放在一起？

我基本上有一个简单的问题，而我的预感是它应该脱落，因为三个横断面彼此显着不同（至少trackA具有比其他两个更高的多样性）。有没有人对如何解决这个问题有任何建议？

Answer 1

可以通过使用计数数据来解释偏度。计数数据大部分时间遵循泊松分布，而不是正态分布。因此，理想情况下，您会使用某种泊松回归结合随机效应进行重复测量。

有关更多信息，我建议您与统计学家或谷歌混合效应泊松回归模型进行交流

Answer 2

两个一般问题：

@ Koot6133是正确的，你应该考虑计数数据的模型，它通常以对数标度运行（从而减少偏差和方差）
您需要考虑数据的条件分布（即日期效应等因素分解后的分布），而不是边缘分布 - 这意味着在大多数情况下，您不必担心分配后的内容，直到之后您已安装模型

线条图的个人偏好 - 然后您可以叠加数据并更有效地比较它们：

ggplot(animal_df,aes(months,animal_species,colour=transect))+
    geom_line()+theme_bw()+scale_y_log10()
ggsave("animal1.png")

零数据数据已经消失，因为我们在对数尺度上绘制，但这确实使得横断面在这个尺度上的差异变化不大。

使用lme4包来适应重复测量/纵向泊松GLMM：

library(lme4)
m1 <- glmer(animal_species~transect+(1|months),
            family=poisson,data=animal_df)

检查过度离散（＆lt; 1，所以没问题）

deviance(m1)/df.residual(m1) ## 0.65

结果：

# Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [
#   glmerMod]
# Family: poisson  ( log )
# Formula: animal_species ~ transect + (1 | months)
# Data: animal_df
# AIC       BIC    logLik  deviance  df.resid 
# 319.3219  328.6449 -155.6610  311.3219        72 
# Random effects:
#   Groups Name        Std.Dev.
# months (Intercept) 0.3003  
# Number of obs: 76, groups:  months, 27
# Fixed Effects:
#   (Intercept)  transecttransB  transecttransC  
# 1.7110         -0.4792         -0.8847

检查位置比例图：

png("animal2.png")
plot(m1,sqrt(abs(resid(.)))~fitted(.),
     type=c("p","smooth"),col=animal_df$transect)
dev.off()

各组间差异/计数数量没有明显变化......

在数据上叠加结果（此时为原始比例）：

pp <- animal_df
pp$animal_species <- predict(m1,type="response")
ggplot(animal_df,aes(months,animal_species,colour=transect))+
  geom_point()+
  geom_line(data=pp)+theme_bw()
ggsave("animal3.png")

在R中重复测量anova而没有齐次方差？

2 个答案: