R -crazy值中的数据离散化

时间:2014-05-02 23:13:25

标签: r decision-tree discretization

再次问好stackoverflow-ers!希望你很好

我正在开发一个项目,实质上是在尝试创建一个决策树。该数据适用于银行的广告系列,该广告系列涉及广告系列激励客户开立定期存款的效果。

无论如何,我已经通过编码等方式在网上资源的帮助下工作,并在一方面碰壁。

其中一列是所有客户的定金存款数字,因为我绘制了可视化数据(请参阅附图)enter image description here

由于数据如此分散,我想要将其离散化。我使用了以下代码:

BankTraining$TDepositAMTD<-cut(BankTraining$TermDepositAMT, right=F,
                           breaks= c(0,5000,10000,15000,20000,max(BankTraining$TermDepositAMT)))

这里

Y轴是观察数量,X轴是定期存款的美元数量。

但是,在此步骤之后查看列我看到:

    table(BankTraining$TDepositAMTD)

   [0,5e+03)   [5e+03,1e+04) 
           5213            8631 
[1e+04,1.5e+04) [1.5e+04,2e+04) 
           8367            1698 
  [2e+04,3e+04) 
           3121

现在,显然这不好。创建决策树后,它会显示这些我无法解释的奇怪类别。

enter image description here

有人可以解释这个问题吗?非常感谢你的帮助。

1 个答案:

答案 0 :(得分:0)

因为看起来你对你正在制作的剪辑感到不满意,所以请注意:

library(Hmisc)
Groups <- cut2(data, g = 5) # g is the number of groups or levels I want

可以找到包裹Hmisc here

至于您的奇怪类别,我们需要查看哪些包/算法以及您如何调用它,因为这些类别可能是您的分箱产品和默认行为的一些后果。很高兴能够在有更多信息时进行编辑。