将28级分类变量转换为矩阵

时间:2017-07-22 11:45:24

标签: r statistics dataset data-analysis lm

我的数据集有一列公司,我会为这个数据集做回归建模。

我应该使用model.matrix进行转换,还是只在一列中指定1-28的值。

lm 函数可以处理它时,将它转换为28列的相关性是什么?

1 个答案:

答案 0 :(得分:1)

我应该使用model.matrix转换它还是只在一列中分配1-28的值?

你不应该这样做:

  • 如果您在一列中分配1到28的值,就好像说公司28的重量是公司1的28倍,而所有公司在分析中需要具有相同的权重(假设这些是公司名称没有序数关系。)。
  • 使用model.matrix会将公司列转换为虚拟变量(0 - 1标志),但您不需要这样做,因为lm会自动为您执行此操作。

当lm函数可以处理它时,将它转换为28列的相关性是什么?

正如我之前提到的lm为你做的那样,所以没有必要自己做。但是,我需要指出的是,最终会有27列(加上截距)作为一个(参考列)将被故意排除。原因是,通过了解其他27家公司,您也隐含地知道第28位(即参考栏与其他27家公司的组合100%相关,因此需要省略)。