计算R中线性回归的统计检验

时间:2015-03-12 08:37:38

标签: r regression linear

我是Stack Overflow的新手,我也是R和统计学的新手。我需要创建一个线性回归模型来根据给定数据集中的某些变量来描述汽车的重量。

wtlm=lm(weight~foreign + cylinders + displacement + hp + acceleration, data=HW2_CarData);

summary(wtlm)

我不确定如何使用此模型进行统计测试,因为我不确定这个" wtlm"描述了权重的正确LR方程= B1X1 + B2X2 + ... +错误。

有人可以帮助我填补这个与进行统计测试之间的差距吗?我需要做一个测试,以确定国内汽车是否比外国汽车重(可能使用二进制变量'外国汽车')。如果它在R之外,我会尝试将汽车分成两组:一组只有美国汽车和一组外国汽车,然后尝试进行统计测试,比较来自两个不同人群的两个样本。 / p>

我已经阅读了很多关于使用&lm;'在R中但它并没有帮助我解决这个问题。任何帮助,将不胜感激!谢谢!

另外,我很好奇它们之间的区别 lm(weight~foreign + cylinders + ...) VS lm(formula= ...)

如果有人能够解释,那也非常有用!

3 个答案:

答案 0 :(得分:1)

使用summary(wtlm),您将获得B对重量的“异常”的估计。 t(测试值)及其相关的p值都是我们称之为“假设检验”的一部分。所以如果p< .05(traditionnaly),这意味着是的,外国人,鉴于此变量是二元的,对权重具有统计上显着的“影响”。要知道效果的程度,您可以使用confint(wtlm),它将为您提供此效果的95%置信区间。 (单位反映你的因变量的单位;如果它是千克,你会知道外国汽车平均与非外国汽车有“Beta”公斤差异,所有其他参数保持不变)

是的,这正确地代表了具有错误的LR模型。至于formula=,它不是强制性的;添加它不会改变一件事。如果你在它之前使用其他参数,那就是它。阅读R函数中的参数顺序以了解更多信息。

答案 1 :(得分:0)

你提到的例子,你真的不需要做那个线性回归。

  

我需要做一个测试,以确定国内汽车是否比外国汽车更重(可能是通过使用二进制变量'外国汽车')。

让我举个例子。我在这里测试变量" wt"在" am"定义的组之间有不同的方法。 [这是二元的]。

data(mtcars)
t.test(wt~am,data=mtcars)

答案 2 :(得分:0)

我恭敬地不同意上面所有类似t测试的答案。 OP提到他对国内和国外汽车的重量差异感兴趣,并希望确定重量:

  

" ...基于给定数据集中的一些变量"

因此,问题是关于国内和国外汽车的重量差异,控制其他汽车特性。回归(或anova)确实不会进行t检验。

让我们使用mtcars数据集,并假设V形是US引擎(VS == 0),S形是欧洲('外来')引擎(VS == 1) )。

df <- mtcars
m1 <- lm(formula = wt ~ vs, data = mtcars)
summary(m1)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   3.6886     0.1950  18.913  < 2e-16 ***
vs           -1.0773     0.2949  -3.654  0.00098 ***

预计输出显示,当不控制其他特征时,欧洲汽车的平均重量(3.6886 + 1 * -1.0773)比美国汽车(3.6886 + 0 * -1.0733)平均值。

然而,这种差异可能归因于欧洲/美国汽车制造方式的差异。例如。美国汽车可能更自动而不是手动,平均可能比欧洲汽车更多的齿轮和化油器,所有这些都有助于汽车的重量。让我们对这些因素进行建模,看看美国/欧洲的体重差异是否仍然存在。

m2 <- lm(formula = wt ~ am + as.factor(carb) + as.factor(gear) + vs, data = mtcars)
summary(m2)
Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)        3.5658     0.4283   8.325 3.03e-08 ***
am                -0.8585     0.4378  -1.961   0.0627 .  
as.factor(carb)2   0.1250     0.3871   0.323   0.7499    
as.factor(carb)3   0.2942     0.5257   0.560   0.5813    
as.factor(carb)4   0.9034     0.4714   1.916   0.0684 .  
as.factor(carb)6   0.7693     0.7966   0.966   0.3446    
as.factor(carb)8   1.5693     0.7966   1.970   0.0615 .  
as.factor(gear)4  -0.4427     0.5015  -0.883   0.3869    
as.factor(gear)5  -0.7066     0.6228  -1.135   0.2688    
vs                -0.3322     0.4237  -0.784   0.4413

简化输出中的最后一行现在表明,一旦考虑到汽车特性,重量差异就不能再归因于美国或欧洲制造。它还很好地说明了这个答案与推荐的t检验(或模型m1中的单变量回归)的实质性差异。

  

&#34;另外,我对lm(weight~foreign + cylinders + ...)lm(formula= ...)&#34;

之间的区别感到好奇

没有实质性的区别。前者是后者的捷径。但是,在使用简写符号时,必须按预期顺序提供元素(公式,数据等)(请参阅?lm)。