何时在分类问题中采用虚拟变量?

时间:2017-03-22 06:04:03

标签: r classification random-forest logistic-regression dummy-variable

我正在进行二元分类问题,我预测客户是否会订阅广告系列(针对航空业)。

我的数据集位于客户和广告系列名称级别,正在考虑43个变量。

某些变量是十分位数(1到10),变量就像教育水平(0到5)。对于教育水平,我们不能说4的受教育程度是2的两倍。我应该如何对待我的变量?

我是否需要将这些变量转换为虚拟变量(0或1),我在R中运行Logistic回归,随机林,Xgboost 如果我将这些转换为虚拟变量(因子分析是抛出错误),我如何检查变量重要性

1 个答案:

答案 0 :(得分:0)

在我看来,你确实需要虚拟变量。如何将educational level转换为多个变量,如下所示:

educational level:1

educational level:2

educational level:3

等等。然后,您可以为每个变量提供虚拟变量。

例如,

educational level:1是:1否:0

educational level:2是:1否:0

然后将您的数据放入逻辑模型中,并尝试使用某种方式对其进行重新取样,例如"交叉验证"。但是我对"variable importance"不太确定,你的意思是这个变量具有统计显着性还是......?