如何用两个分类变量和相互作用来解释多元线性回归中的系数和p值

时间:2017-11-02 20:07:14

标签: linear-regression categorical-data interaction p-value

我是线性回归的新手,所以我希望你能帮助我用两个分类预测变量和一个交互项来解释多元线性回归的输出。

我做了以下线性回归:

lm(H1A1c ~ Vowel * Speaker, data=data)

元音和扬声器都是分类变量。元音可以是“呼吸”,“模态”或“吱吱”,有四个不同的发言者(F01, F02, M01, M02)。我想看看这两个类别的组合是否可以预测H1A1c的值。

我的输出是这样的: Output of lm

如果我错了,请纠正我,但我认为我们可以从这个输出中看出,我的大多数变量之间的关系不能表征为线性。我真正不了解的是如何解释第一个p值。当我用Google搜索时,我发现所有其他p-values都指的是相应系数与该系数相关的关系。例如。第三行中的p-value指的是第三行的系数与第一行的系数的关系,即23.1182-9.6557。 那么第一个系数的p值呢?如果没有关系,就不会有线性关系?这个p值是指什么?

提前感谢您的回答!

1 个答案:

答案 0 :(得分:0)

第一个p值(截距)告诉您拟合线的y轴截距可能为零(通过原点)的可能性。由于结果中的p值低于0.05,可以说y截距肯定不为零。

其他p值的解释不同。您的解释是正确的,它们可以确定它们所代表的变量的系数是否可能为零。

  

第三行的p值是指第三行的系数与第一行的关系,即23.1182-9.6557

( - 9.6557)意味着平均而言,如果GlottalContext = creaky(即GlottalContextcreaky = 1),那么H1A1c的预测值将低9.6557个单位,相比之下,当GlottalContext =呼吸时(因为呼吸是你的参考类别)保持所有其他预测因素不变。很明显,当相应的p值小于0.05时,我认为这是GlottalContextcreaky的情况。

(另外,如果我假设H1A1c是连续变量,我不确定选择线性回归来预测H1A1c是最好的方法,因为你的两个预测因子都是绝对的。你可能想探索其他算法,例如将您的因变量转换为分类变量并进行二元/多项逻辑回归或决策树)