Question

关于R在运行模型摘要时如何工作的理论问题。我正在做一些线性回归模型，其中我的两个变量是分类的，每个变量有3个级别，相应的基因型。我知道只有两个级别将显示在模型摘要中，因为其中一个级别必须是参考。但是，我的这些变量对其中一个级别只有1个计数，如：

变量1水平：TT 176计数/ TC 45计数/ CC 1计数（223个基因型中的个体）。

现在，这个CC级别通常不会出现在模型摘要中，我假设它是因为，因为只有1，所以R没有考虑到它。我所需要的只是找到一篇文献参考来证实或否定我的假设。我一直试图以不同的方式谷歌这个，并通过R ?help进行lm和其他相关搜索，但要么我找不到我正在寻找的，要么已经找到了我不明白这一点。

非常感谢任何帮助！

Answer 1

您的假设不正确。

第一个级别将是参考级别，默认排序是按字母顺序排列的。因为CC首先按字母顺序排列，所以它是模型中的参考级别。

使用相对常见的值作为参考水平是一种良好的做法（减少其他估计的方差）。因此，我建议修改字母默认值以使TT成为参考水平。这应该像

一样简单

your_data$var = relevel(your_data$var, ref = "TT")

（当然代替您的数据框和变量名称）。

设定关卡的方式称为“对比”。 ?contrasts是一个开始阅读的好地方，使用该搜索字词，您也应该能够找到其他文档/参考资料。（除了之外还有其他选项“将所有内容与参考级别进行比较”，但这不在此范围内。）

同样地，听起来很可能只包含一个只有一个观察点的关卡，但这是一个统计问题，而不是一个编程问题（并且需要比你的问题更多的信息），所以我不会在这里进一步解决。