描述性分析与斜率估计线性模型R之间的不匹配

时间:2017-05-24 11:36:39

标签: r modeling lm mismatch

我是一名处理R建模的小学生。

我正在尝试找到由n个重复行xm变量列组成的数据集的最佳模型:我想建立一个lm来解释4个分类回归量在Y(连续数据)植物芽数中的影响/平方米。

公式模型为:lm(Y~a + b + c + d)。

回归水平:“a”有4个等级(阴影百分比等级),“b”有4个等级(4个调查年),“c”有3个等级(高程等级)和“d”有7个等级(7个空间)采集枝条的多边形)。

在描述性分析中,我观察到(带有箱形图)所有回归量水平的Y值都在强烈下降,特别是对于分类变量“a”:其水平称为“I”(100%轻),“II”(60%) ,“III”(30%),“IV”(10%光),具有350,250,150 100 Y中值。

在概要模型中,我可以观察到每个回归量水平的Y值的预期影响,除了“a”:该回归量的水平与具有显着p值的Y呈现相反的关系。这意味着与I(包括在截距中)相比,II级的估计斜率值为+69,III +133和IV + 150。

诊断图正确,残差正态分布和方差同质性。

所以我的问题是,这种影响是否可能,或者我应该以不同的方式阅读摘要?

提前感谢您的帮助。

Here you can see the distribution of each factors level included in the model

Summary and diagnostic plot

1 个答案:

答案 0 :(得分:0)

我将您的问题标记为要进行交叉验证,因为它更像是一个统计问题。希望你在那里得到更详细的答案。

在任何情况下,您不匹配的一个潜在原因是您的一个解释变量与另一个相关。这不会出现在您的诊断图中。相关变量"导致"您在摘要图中看到的密度递减。通过将其包含在回归中删除该效果后,实际效果会显示密度增加

快速检查是对您的解释变量之间的关联进行一些测试。或者,您可以逐步估计线性模型,在另一个之后添加一个变量,以查看在添加特定解释变量后阴影变量的符号是否发生变化。