再次问好stackoverflow-ers!希望你很好
我正在开发一个项目,实质上是在尝试创建一个决策树。该数据适用于银行的广告系列,该广告系列涉及广告系列激励客户开立定期存款的效果。
无论如何,我已经通过编码等方式在网上资源的帮助下工作,并在一方面碰壁。
其中一列是所有客户的定金存款数字,因为我绘制了可视化数据(请参阅附图)
由于数据如此分散,我想要将其离散化。我使用了以下代码:
BankTraining$TDepositAMTD<-cut(BankTraining$TermDepositAMT, right=F,
breaks= c(0,5000,10000,15000,20000,max(BankTraining$TermDepositAMT)))
这里
Y轴是观察数量,X轴是定期存款的美元数量。
但是,在此步骤之后查看列我看到:
table(BankTraining$TDepositAMTD)
[0,5e+03) [5e+03,1e+04)
5213 8631
[1e+04,1.5e+04) [1.5e+04,2e+04)
8367 1698
[2e+04,3e+04)
3121
现在,显然这不好。创建决策树后,它会显示这些我无法解释的奇怪类别。
有人可以解释这个问题吗?非常感谢你的帮助。
答案 0 :(得分:0)
因为看起来你对你正在制作的剪辑感到不满意,所以请注意:
library(Hmisc)
Groups <- cut2(data, g = 5) # g is the number of groups or levels I want
可以找到包裹Hmisc here。
至于您的奇怪类别,我们需要查看哪些包/算法以及您如何调用它,因为这些类别可能是您的分箱产品和默认行为的一些后果。很高兴能够在有更多信息时进行编辑。