我的数据集有一列公司,我会为这个数据集做回归建模。
我应该使用model.matrix进行转换,还是只在一列中指定1-28的值。
当 lm 函数可以处理它时,将它转换为28列的相关性是什么?
答案 0 :(得分:1)
我应该使用model.matrix转换它还是只在一列中分配1-28的值?
你不应该这样做:
model.matrix
会将公司列转换为虚拟变量(0 - 1标志),但您不需要这样做,因为lm
会自动为您执行此操作。当lm函数可以处理它时,将它转换为28列的相关性是什么?
正如我之前提到的lm
为你做的那样,所以没有必要自己做。但是,我需要指出的是,最终会有27列(加上截距)作为一个(参考列)将被故意排除。原因是,通过了解其他27家公司,您也隐含地知道第28位(即参考栏与其他27家公司的组合100%相关,因此需要省略)。