如果用于设计因变量,是否可以将其用作解释变量?

时间:2019-04-28 12:47:24

标签: r classification svm random-forest naivebayes

我正在尝试创建3个分类模型:朴素贝叶斯,随机森林和SVM。

我要预测的变量是电影裁决,类别为“ hit”或“ flop”。我通过“收入/预算”公式设计了此变量的值,如果该公式的值是1+,则将其分类为“命中”或“失败”。

我的问题是:由于我已经使用收入和预算来创建Film Verdict变量,我可以将这两个变量用作模型中解释性/独立变量的一部分吗?

说明:我还有其他几个变量,例如ActorRating,Tweet Polarity等也用作输入变量。

2 个答案:

答案 0 :(得分:0)

是的,可以。可以使用predict可用的任何内容。但是,在您的示例中,模型将是非常基本的,并且可以很容易地从输入变量派生输出变量。

您可能需要了解的几件事:

  • Data Leakage:在训练中使用测试中的内容
  • Heteroscedasticity:当子种群与其他种群的变异性不同
  • Collinearity:自变量之间的高度相关性
  • Overfitting:模型在训练和测试之间的表现如何

某些算法解决了一些问题,因此知道这一点将有助于您找到最佳算法。

答案 1 :(得分:0)

它们的相关系数很高,因此不应该使用。