我们正在做R中的第一个项目作为最后的成绩,这是找到一个数据集并测试与该数据集有关的一些假设。我们的R知识非常基础,而我们所了解的东西仅限于线性建模/回归,t检验,ANOVA检验和绘图。
我们发现自己的学生饮酒数据集具有以下变量:
'data.frame': 395 obs. of 8 variables:
$ sex : Factor w/ 2 levels "F","M": 1 1 1 1 1 2 2 1 2 2 ...
$ studytime: int 2 2 2 3 2 2 2 2 2 2 ...
$ romantic : Factor w/ 2 levels "no","yes": 1 1 1 2 1 1 1 1 1 1 ...
$ freetime : int 3 3 3 2 3 4 4 1 2 5 ...
$ goout : int 4 3 2 2 2 2 4 4 2 1 ...
$ Walc : int 1 1 3 1 2 2 1 1 1 1 ...
$ absences : int 6 4 10 2 4 10 0 6 0 0 ...
$ G3 : int 6 6 10 15 10 15 11 6 19 15 ...
G3是学生的最终成绩,评分范围是0-20, 缺勤是学生缺席的日子, Walc是周末酒精消耗量比率(从1到5) 外出,学习时间和空闲时间也处于1到5级之间
我们不知道如何将测试应用于平准数据。例如,如果我们要测试周末饮酒是否对最终成绩有影响,或者空闲时间是否对饮酒有影响,则p值始终太小或太大。线性回归函数根本没有意义。这是因为所有内容的排名都是从1到5?我们如何克服这个问题?