我正在进行二元分类问题,我预测客户是否会订阅广告系列(针对航空业)。
我的数据集位于客户和广告系列名称级别,正在考虑43个变量。
某些变量是十分位数(1到10),变量就像教育水平(0到5)。对于教育水平,我们不能说4的受教育程度是2的两倍。我应该如何对待我的变量?
我是否需要将这些变量转换为虚拟变量(0或1),我在R中运行Logistic回归,随机林,Xgboost 如果我将这些转换为虚拟变量(因子分析是抛出错误),我如何检查变量重要性
答案 0 :(得分:0)
在我看来,你确实需要虚拟变量。如何将educational level
转换为多个变量,如下所示:
educational level:1
educational level:2
educational level:3
等等。然后,您可以为每个变量提供虚拟变量。
例如,
educational level:1
是:1否:0
educational level:2
是:1否:0
然后将您的数据放入逻辑模型中,并尝试使用某种方式对其进行重新取样,例如"交叉验证"。但是我对"variable importance"
不太确定,你的意思是这个变量具有统计显着性还是......?