Question

通常情况下，我和您（假设您不是机器人）可以轻松识别预测变量是分类还是定量。例如，性别显然是明确的。您的最后一次投票可以分类基本上，我们可以轻松识别分类预测变量。但是当我们在R中输入一些数据时会发生什么，而它的lm函数会为预测变量生成虚拟变量？它是如何做到的？

StackOverflow上有点related Question。

Answer 1

搜索R factor功能。这是一个小型演示，第一个模型使用数量的圆柱作为数值有价值。第二个模型将其用作分类变量。

> summary(lm(mpg~cyl,mtcars))

Call:
lm(formula = mpg ~ cyl, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.9814 -2.1185  0.2217  1.0717  7.5186 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.8846     2.0738   18.27  < 2e-16 ***
cyl          -2.8758     0.3224   -8.92 6.11e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.206 on 30 degrees of freedom
Multiple R-squared:  0.7262,    Adjusted R-squared:  0.7171 
F-statistic: 79.56 on 1 and 30 DF,  p-value: 6.113e-10

> summary(lm(mpg~factor(cyl),mtcars))

Call:
lm(formula = mpg ~ factor(cyl), data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.2636 -1.8357  0.0286  1.3893  7.2364 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   26.6636     0.9718  27.437  < 2e-16 ***
factor(cyl)6  -6.9208     1.5583  -4.441 0.000119 ***
factor(cyl)8 -11.5636     1.2986  -8.905 8.57e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.223 on 29 degrees of freedom
Multiple R-squared:  0.7325,    Adjusted R-squared:  0.714 
F-statistic:  39.7 on 2 and 29 DF,  p-value: 4.979e-09

Answer 2

Hxd1011解决了更为困难的情况，当分类变量存储为数字时，因此R默认情况下理解它是一个数值 - 如果这不是所需的行为，我们必须使用factor函数。

您在数据集ShelveLoc中使用预测变量Carseats的示例更容易，因为它是一个文本（字符）变量，因此它只能是一个分类变量。

> head(Carseats$ShelveLoc)
[1] Bad    Good   Medium Medium Bad    Bad   
Levels: Bad Good Medium

Answer 3

R从功能类型决定该东西。您可以使用str（dataset）检查它。如果该特征是因子类型，那么它将为该特征创建虚拟对象。

lm（）如何知道哪些预测变量是分类的？

3 个答案: