什么时候需要/适当的因素在r

时间:2014-01-20 04:04:23

标签: r anova r-factor

我一直在使用R中的aov()函数。我总是通过.csv文件输入我的数据,并且从未打扰过将任何变量转换为'factor'。

最近我做到了这一点,将变量转换为因子并重复aov(),aov()的结果现在不同了。

我的数据是有序类别,0,1,2。无序或有序的级别没有区别,两者都不同于使用变量而不转换为因子。

因素总是合适吗?为什么这种转换会产生如此大的差异?

如果需要更多信息以使我的问题更清楚,请告诉我。

1 个答案:

答案 0 :(得分:2)

这确实是一个统计问题,但是,它可以有所作为。如果R将变量视为数字,则在模型中它将仅考虑单个自由度。如果数字的级别为0,1,2,作为一个因子,它将使用两个自由度。这将改变模型的统计输出。如果您使用数字编码的多个因子或变量具有多个级别,则数值和因子表示之间的模型复杂性的差异会显着增加。包含变量的解释平方和的增加是否具有统计显着性取决于增加的幅度和模型复杂性的变化。使用类变量的数字表示将通过单个自由度增加模型复杂度,但类变量将使用 k -1自由度。因此,对于模型拟合的相同改进,您可能处于这样的情况:编码变量数字或因子是否会改变它是否对响应产生显着影响。

从概念上讲,基于数字或因子的模型不同;因为您有一小组已经采样的小组或类别,目的是查看这些分组之间的响应是否不同。该模型固定在样本组的集合上;你只能预测观察到的那些群体。对于数字,您说响应与数字变量线性变化。从拟合模型中,您可以预测未观察到的数值变量的某些新值。

(请注意,固定因子的推断假定您拟合固定效应模型。将因子变量视为随机效应将焦点从采样的精确组中移动到人口中的所有组的集合。取样。)