在lm中处理分类/二元变量

时间:2014-11-20 13:23:47

标签: r regression

使用lm构建回归函数时,是否需要明确指定哪些变量应该是分类变量还是二进制变量?如果我们必须,怎么做?感谢。

1 个答案:

答案 0 :(得分:0)

这提出了另一个重要问题:变量是数字还是分类是数据的属性还是分析的属性?

早在统计计算的早期,将分类变量存储为数字就更容易了,因此有必要在某些时候指定这些变量确实代表了类别,而不是数字本身具有意义。指定这一点的常见地点是分析点。这导致了将变量类型作为分析属性的遗留问题。

R(和其他)是一种更现代的语言,并且采用的方法应该是数据本身的属性。这简化了一些事情,您可以进行一次这样的指定以及所有得到的分析/图表/表格等。将正确对待变量。我认为这种方法更加直观和简单,毕竟,如果某个特定变量对于一个分析是分类的,那么对于所有分析,图表,表等都不应该是分类的吗?

这是一个很长的答案,但我们的想法是帮助您将思路从如何在分析中指定为思考如何为数据本身指定属性。如果您在进行任何分析之前指定数据是一个因素(使用factorordered或其他函数),则R分析/图表/表格工具将执行正确的操作。根据您的数据外观以及输入/导入方式,可能已经为您完成了此转换。

其他属性(例如类别的顺序)也应该是数据的属性,而不是分析/图表/表格等。