在R中使用GLM来查看性别比例是否因组

时间:2017-04-21 00:12:27

标签: r glm

我有很多关于实验室内事物发展的数据。这涉及不同的收集站点信息和不同的处理。

我的问题:分组(地点和治疗)是否对成年男性与女性的性别比例产生影响?我可以用GLM解决这个问题吗?

[我不知道我投入了多少性别,这是随机的,有些少年在发育过程中死亡,而我只是对成年人进行了性交]

我按照本教程,使用GLM来调查性别比例: http://www.simonqueenborough.info/R/stats-basic/glm.html

这是我的数据和代码:

mo<-"Temp   Locality    Females Males
A   APR 88  110
B   APR 101 97
C   APR 85  94
A   ARS 65  69
B   ARS 57  78
C   ARS 54  76
A   RMO 103 90
B   RMO 97  101
C   RMO 82  78
A   RPV 89  92
B   RPV 98  86
C   RPV 64  76
A   SJU 66  63
B   SJU 57  66
C   SJU 16  17
A   TLC 45  46
B   TLC 41  43
C   TLC 27  44
A   TPN 25  20
B   TPN 22  25
C   TPN 16  22"

data <- read.table(text=mo, header = TRUE)
y<-cbind(data$Males,data$Females)
model<-glm(y~data$Temp+data$Locality, family=binomial)
summary(model)

#results of summary (model)
Call:                       
glm(formula = y ~ sexy$Temp + sexy$Locality, family = binomial)                     

Deviance Residuals:                         
    Min       1Q   Median       3Q      Max                         
-0.8231  -0.5549  -0.2398   0.5038   1.2954                         

Coefficients:                       
                 Estimate Std. Error z value Pr(>|z|)                       
(Intercept)       0.03839    0.09885   0.388    0.698                       
sexy$TempB        0.03032    0.09093   0.333    0.739                       
sexy$TempC        0.14538    0.09818   1.481    0.139                       
sexy$LocalityARS  0.14092    0.13098   1.076    0.282                       
sexy$LocalityRMO -0.13872    0.11938  -1.162    0.245                       
sexy$LocalityRPV -0.07783    0.12213  -0.637    0.524                       
sexy$LocalitySJU -0.01914    0.14600  -0.131    0.896                       
sexy$LocalityTLC  0.07243    0.15286   0.474    0.636                       
sexy$LocalityTPN -0.03022    0.19444  -0.155    0.877

从两个模型摘要中,我发现性别比率与温度或地点无显着差异。这是真的吗? GLM是否合适或是否有另一种方法?

1 个答案:

答案 0 :(得分:0)

这里不是问题......但无论如何我都会回答。

你的模型没有意义。二项式模型应具有1或0因变量。对于女性或男性(1或0)的每个单独观察,使用二项式模型的问题是,温度或局部影响观察女性或男性的概率&#34;。因此,不是对女性的数量与男性的数量进行建模,而是根据温度/地点的影响模拟在任何给定点观察女性或男性的概率。

您可以通过创建男性/女性的因变量或反之亦然来明确建模比率,并在线性回归模型中使用它。但这可能是不明智的。线性框架中的建模比例可以是反保守的,特别是如果比例偏向接近1.但如果你的比例在0:1之间分布良好并且不会偏向接近1,那么它可能不是那么糟糕(尽管它可能是#39对于建模比例来说,仍然是一个不太好的方式)。

我会考虑重新格式化您的数据,以便您可以在二项框架中实际建模,就像您最初的想法一样。二项式模型的建模逻辑与您想要的问题相对接近(影响我观察男性或女性的概率是什么)?只需制作一个数据框,其中包含1次温度观察和1次性别观察,每次观察性别(编码为1或0(例如,男性== 1,女性== 0))并在二项式/逻辑中对其进行建模框架。

如果你想看看温度/地点差异,你可以做第二个二分模型的死亡而不是死亡。影响了成年期的发展。

另外 - 如果您有兴趣解释不同温度/地点的效果指示等,您需要对您的分类预测因子进行对比。