计算R

时间:2017-11-30 11:05:48

标签: r linear-regression anova

在管理和经济学的统计学课程中,我正在给我们一个数据集,其中包括有关求职者的信息(年龄,学校和学士学位,实习的数量,在国外度过的时间,在面试中的表现)和评估他们被录用后的工作表现我们应该使用多元线性回归分析哪些变量可以预测以后的工作绩效。总的来说,我们应该拟合四个模型,随后添加越来越多的预测变量,并比较它们的F检验的R ^ 2,F值,p值,并解释模型是否具有解释性值。

到目前为止,我有以下代码:

#import function for calculating linear regression models with heteroscadacity robust standard errors
url_robust <-"https://raw.githubusercontent.com/IsidoreBeautrelet/economictheoryblog/master/robust_summary.R"
eval(parse(text = getURL(url_robust, ssl.verifypeer = FALSE)), envir=.GlobalEnv)

#calculate linear models
lm_1 <- lm(performance ~ age + sex, data_A)
summary(lm_1, robust = T)

lm_2 <- lm(performance ~ age + sex + school + bachelor, data_A)
summary(lm_2, robust = T)

lm_3 <- lm(performance ~ age + sex + school + bachelor + abroad + internships, data_A)
summary(lm_3, robust = T)

lm_4 <- lm(performance ~ age + sex + school + bachelor + abroad + internships + interview, data_A)
summary(lm_4, robust = T)

以下是lm_4摘要核心的输出:

Call:
lm(formula = performance ~ age + sex + school + bachelor + abroad + 
internships + interview, data = data_A)

 Residuals:
     Min       1Q   Median       3Q      Max 
    -1.26292 -0.31620 -0.00085  0.29548  1.51859 

 Coefficients:
              Estimate Std. Error t value Pr(>|t|)  
 (Intercept)  2.073422   1.046419   1.981   0.0527 .
 age          0.011915   0.023007   0.518   0.6067  
 sex          0.046603   0.149346   0.312   0.7562  
 school      -0.192044   0.123340  -1.557   0.1254  
 bachelor     0.243797   0.111866   2.179   0.0338 *
 abroad       0.015325   0.009493   1.614   0.1124  
 internships  0.037040   0.041557   0.891   0.3768  
 interview    0.339886   0.216935   1.567   0.1231  
 ---
 Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

 Residual standard error: 0.4776 on 53 degrees of freedom
    (5 observations deleted due to missingness)
 Multiple R-squared:  0.3195,   Adjusted R-squared:  0.2297 
 F-statistic:  4.18 on 7 and 53 DF,  p-value: 0.0009912

此外,我有我们应该为我们模型中的每个参数获得的解决方案以及模型4的系数(具有最多预测变量的最复杂模型)。

R^2, F-value, P-value and explanatory significance for each of the four linear models

non-standardized and standardized coefficients of model 4 including t-value and p-value

到目前为止,我拟合的模型似乎是正确的,因为我获得了具有相同t和p值的相同系数。我的问题是,在多线性模型的F检验中,我获得了F统计量而不是F值。根据我的研究,我认为F统计量和F值(有时也称为F比率)之间的差异是F统计量是关键的F值(即如果F值小于F值的那个值)它的F检验不再具有统计学意义),F值/ F比是实际的检验值。它是否正确?在R中我还想获得F值。我们的教授使用gretl来解决他的问题,而不是R和gretl显然总是给你线性回归模型的F值而不是F统计量。我已经尝试了许多不同的方法来获得这个F值,但我不能让它们中的任何一个起作用。我将在下面发布我失败的解决方案方法。关于如何获得每个模型的F值的任何建议都将受到高度赞赏!另外,如果有人能解释为什么理论上我的一个模型(可能lm_1最实用,因为它具有最少数量的预测因子)的F值将会真正帮助我,因为我认为我当前的问题是那个我误解了计算F值的一些事情。

(为了简单起见,我总是从最复杂的模型开始,并希望找到一个解决方案,然后逐步完成更复杂的解决方案。)

方法1:在我的模型上执行anova

anova(lm_1)

控制台输出:

Analysis of Variance Table

Response: performance
          Df  Sum Sq  Mean Sq F value Pr(>F)
age        1  0.1212 0.121247  0.4054 0.5266
sex        1  0.0170 0.016995  0.0568 0.8124
Residuals 63 18.8425 0.299087  

这里我获得了两个不同的F值。据我了解anova分析,年龄中的第一个只测试年龄没有性别的影响,第二个测试性别的影响,同时消除上面一行中分析的影响?我对此仍然有点困惑。

由于F值=组的方差意味着(均方间均值)/组内方差的平均值(均方误差),我想手动计算Anova输出的F值,但我不是确切地知道如何进行。我尝试的所有解决方案都没有导致我应该获得的F值。有人可以解释我将如何计算它吗?

在我的研究中,我也经常遇到嵌套模型这个短语,然后这会给我一个分析整个模型的F值。可悲的是,我无法弄清楚嵌套模型到底是什么以及如何将其输入到R.

感谢您的帮助!

0 个答案:

没有答案