具有多个二元变量的回归?

时间:2020-12-31 17:58:05

标签: r regression

我是数据科学领域的新手,我正在尝试用 R 开发一个小程序,我想用它来预测香水(香水)。 我已经创建了一个包含我自己所有香水的数据集,其中我将一些属性作为列,例如酸橙、香草、鸢尾等香水的香调。所有这些都是二元变量,对于每种香水,我都指定了一个“喜欢”连续值个人在 0-10 的范围内。 如何使用所有这些二元变量对连续变量(如)进行回归。我想我必须使用与注释一样多的虚拟变量。但是我在预测阶段遇到了一些问题。我通过将所有变量作为因子来拟合模型。 我想通过预测 1 个新行的“喜欢”来测试它。但当然,这条新线只会有一些 0 或 1。所以它回答我,训练和测试集具有不同数量的因子水平(训练中为 2,测试中为 1)。 我该如何解决?

1 个答案:

答案 0 :(得分:0)

这有点猜测,但我认为您正在寻找的是明确设置测试集中的所有因子水平:

for (x in note_names) { 
     levels(test[[x]]) <- c("no","yes")}
}

虽然通常最佳实践是使用因子而不是虚拟变量或整数代码来表示 R 中的分类变量(这就是它们的用途,这意味着您没有要记住或有一个单独的代码书来知道例如 1=male, 2=female),在这种情况下,我认为您最好将“缺席”编码为 0,将“存在”编码为 1 - 这就是任何统计/ML方法会将您的分类变量转换为任何方式,而且这是明确的。