线性回归中的分类变量:只有一个值的一个级别,其余为NA

时间:2017-10-03 15:04:39

标签: r linear-regression

关于R在运行模型摘要时如何工作的理论问题。我正在做一些线性回归模型,其中我的两个变量是分类的,每个变量有3个级别,相应的基因型。我知道只有两个级别将显示在模型摘要中,因为其中一个级别必须是参考。但是,我的这些变量对其中一个级别只有1个计数,如:

变量1水平:TT 176计数/ TC 45计数/ CC 1计数(223个基因型中的个体)。

现在,这个CC级别通常不会出现在模型摘要中,我假设它是因为,因为只有1,所以R没有考虑到它。我所需要的只是找到一篇文献参考来证实或否定我的假设。我一直试图以不同的方式谷歌这个,并通过R ?help进行lm和其他相关搜索,但要么我找不到我正在寻找的,要么已经找到了我不明白这一点。

非常感谢任何帮助!

1 个答案:

答案 0 :(得分:1)

您的假设不正确。

第一个级别将是参考级别,默认排序是按字母顺序排列的。因为CC首先按字母顺序排列,所以它是模型中的参考级别。

使用相对常见的值作为参考水平是一种良好的做法(减少其他估计的方差)。因此,我建议修改字母默认值以使TT成为参考水平。这应该像

一样简单
your_data$var = relevel(your_data$var, ref = "TT")

(当然代替您的数据框和变量名称)。

设定关卡的方式称为“对比”。 ?contrasts是一个开始阅读的好地方,使用该搜索字词,您也应该能够找到其他文档/参考资料。 (除了之外还有其他选项“将所有内容与参考级别进行比较”,但这不在此范围内。)

同样地,听起来很可能只包含一个只有一个观察点的关卡,但这是一个统计问题,而不是一个编程问题(并且需要比你的问题更多的信息),所以我不会在这里进一步解决。